2018年11月_Python成长路

原创破解花式反爬之大众点评-中

昨天试探性的爬取了大众点评的数字信息，但一般我们获取的数据中，不止是这些数字信息。在基本信息里面，地址也是一个很重要的数据。于是今天尝试一下怎么获取地址。思路和数字是一样的，概括就是，通过css文件里的偏移量找到class属性和svg文件中的汉字的对应关系。唯一的不同在于数字的svg文件只有一行10个数字，而地址中的svg文件包含200多个汉字。地址的class属性大部分是以bi-开头的（部分...

2018-11-27 19:40:44 2923 10

原创破解花式反爬之大众点评-上

常规的反爬机制有访问频率限制、cookie限制、验证码、js加密参数等。目前解决不了的js加密是今日头条的_signature参数、京东的s参数(在搜索结果的ajax中，返回的结果根据s参数的不同而不同，目前没有发现规律)、新版12306登陆时的callback参数等而今天的网站的反爬机制是目前我见过的最有水平的，网址：http://www.dianping.com/，以上的反爬机制它都有，而...

2018-11-26 18:55:19 5040 8

原创爬取链家所有房源信息(在售、成交、租房)

环境：Windows10+Anaconda python3.6.5+Spyder目标：抓取链家北京地区所有房源信息。打开链家官网 https://bj.lianjia.com/ 。粗略的浏览了一下，整个网站使用的都是静态网页，通过改变url来实现网页变动。不过网站默认只显示100页的内容，每页30条，不管那里写着多少多少条数据。如果需要抓取所有数据，必须通过某些条件筛选。有地区、价格、朝向...

2018-11-24 15:39:47 7025

原创模仿pyspider写招聘网站爬虫

马上要毕业了，也学习了很多知识，是时候要想一下怎么找工作了，顺便看看公司的职位我是否能胜任，如果不能胜任，也能提前知道自己还缺少什么，接着继续努力。那就抓取招聘网站上的信息看一看吧。今天抓取的招聘网站有四个，分别是猎聘、智联招聘、看准、百度百聘。目前我的要求是当我输入职位和城市时，将相关的信息存储到MongoDB数据库，作为学习数据分析的基础数据。这里面我最关心的是任职要求，不过现在还没有学习...

2018-11-20 19:15:33 466

原创 Ubuntu服务器长时间运行爬虫程序

————————————————————————————————————————最近想爬一个小型网站，目前已经拿到的没有去重的URL有30万个，我要进一步拿到URL的详细信息，但因为网站服务器抗压有限(前面的30万个url是因为网站有api，我直接拿到的)，基于爬虫程序员的素质，我只能每爬一个URL就sleep几秒，这样就需要很长的一段时间了。(还是淘宝、知乎等大网站好，人家基本是你随便爬，在我...

2018-11-19 10:27:59 1576 2

原创 Windows和Ubuntu安装MongoDB

今天突然想在自己的笔记本和服务器上装MongoDB，遇到一些坑。Windows：安装在c盘以外就报错，无论是data、log、还是mongo程序。只要一直点下一步啥事没有，我表示很无语。Ubuntu ：这个安装就比较坑了，我首先参照的是崔庆才大神的博客，前面一直没什么问题，这里不知道为什么，运行了sudo apt-get install -y mongodb-org之后，输入mongo...

2018-11-17 03:45:49 1701

原创 pyspider抓取伯乐在线python相关所有文章

有点软用的pyspider中文文档(这个翻译的和谷歌翻译差不多，如果没有谷歌翻译插件的可以考虑)英文官方文档（谷歌翻译后完全能看懂，不像python官方的，第三方库的都比较友好）伯乐在线python相关文章了解了requests和aiohttp之后，是时候学习一波框架了，而被吹的最厉害的莫过于scrapy和pyspider了。两个都接触了一下，我发现国人编写的这个pyspider对Windo...

2018-11-12 20:29:56 1539

原创 scrapy抓取知乎所有用户信息

崔庆才老师scrapy爬取知乎用户信息博客我的代码github地址scrapy中文入门文档看完别人操作一遍，肯定要自己动手做一下，否则看的有什么意思呢。我看了一下知乎，发现并没有什么太大的变化，唯一变化的是鼠标移到用户名的时候，显示的信息比老师演示的时候要少，基本和ajax获得的信息一样，所有我爬的时候并没有请求详细信息。说一下我遇到的问题吧，当我爬到一万多条用户消息的时候，响应码全部变...

2018-11-09 16:34:10 913

原创知乎搜索关键字爬取相关图片

代码github地址程序功能：填写搜索关键字，爬虫就会访问知乎搜索页面并处理返回结果，提取标题、url、点赞数、评论数存储到MongoDB数据库中，然后再依次爬取刚才得到的所有url，获取url中所有内容(广告图片不会获取)图片地址。可以选择下载，默认不下载。只保存图片url到txt文件中。爬取知乎时发现，知乎好像对爬虫很宽容，并没有很难的加密参数，也没有ip频繁检测(不过我并没有加多线程或者...

2018-11-06 15:09:38 1750

原创爬虫模拟登陆果壳网

-–很多网站需要登录之后爬虫才能获取到有用的信息，一般我们都直接在浏览器复制cookies给爬虫。有些网页可以直接使用爬虫模拟登陆，验证码可以使用图像识别(不过我还没学，就先使用人工了)，这样可以达到批量获取cookies。我看到了一个特别简单，适合刚开始练手的网站果壳网。–要想模拟登陆...

2018-11-02 11:50:12 1559 2

原创爬取乐视电影评论

自从学了爬虫之后，我就想把能爬的东西都爬下来，太难的现在还不会，于是在网上找一些简单的练习。乐视电影评论算一个比较简单的ajax练习了，随便打开一个电影，看了一个浏览器加载的请求，有点多(这里遇到一个小问题，点XHR选项没有内容，但all里面却又有ajax请求，很奇怪)，不知道哪个是评论的，于是清空请求，点了一下第二页，看到前两个就是。将参数复制下来，刷新几遍，只有 _和page 一直在变化，p...

2018-11-02 09:14:33 2294

原创爬取今日头条街拍图的一次教训

本来只要按照崔大大的步骤一步一步做下去，啥问题没有。但我看完他的操作之后，自己操作了一遍。在街拍_头条搜索这个页面发起ajax请求并没有遇到什么问题，然后理所当然的访问其中一个子页面什么都没有想，我就直接看了一下浏览器有没有ajax请求，看了一下ajax(XHR)的内容发现里面有图片地址，就开始分析请求的参数，有三个参数是一直变化的as、cp、_signature。接着在众多的js文件中搜索...

2018-11-01 16:30:14 874

Qwertyuiop2016的博客