自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 资源 (1)
  • 收藏
  • 关注

原创 破解花式反爬之大众点评-中

昨天试探性的爬取了大众点评的数字信息,但一般我们获取的数据中,不止是这些数字信息。在基本信息里面,地址也是一个很重要的数据。于是今天尝试一下怎么获取地址。思路和数字是一样的,概括就是,通过css文件里的偏移量找到class属性和svg文件中的汉字的对应关系。唯一的不同在于数字的svg文件只有一行10个数字,而地址中的svg文件包含200多个汉字。地址的class属性大部分是以bi-开头的(部分...

2018-11-27 19:40:44 2923 10

原创 破解花式反爬之大众点评-上

常规的反爬机制有访问频率限制、cookie限制、验证码、js加密参数等。目前解决不了的js加密是今日头条的_signature参数、京东的s参数(在搜索结果的ajax中,返回的结果根据s参数的不同而不同,目前没有发现规律)、新版12306登陆时的callback参数等而今天的网站的反爬机制是目前我见过的最有水平的,网址:http://www.dianping.com/, 以上的反爬机制它都有,而...

2018-11-26 18:55:19 5040 8

原创 爬取链家所有房源信息(在售、成交、租房)

环境:Windows10+Anaconda python3.6.5+Spyder目标:抓取链家北京地区所有房源信息。打开链家官网 https://bj.lianjia.com/ 。粗略的浏览了一下,整个网站使用的都是静态网页,通过改变url来实现网页变动。不过网站默认只显示100页的内容,每页30条,不管那里写着多少多少条数据。如果需要抓取所有数据,必须通过某些条件筛选。有地区、价格、朝向...

2018-11-24 15:39:47 7025

原创 模仿pyspider写招聘网站爬虫

马上要毕业了,也学习了很多知识,是时候要想一下怎么找工作了,顺便看看公司的职位我是否能胜任,如果不能胜任,也能提前知道自己还缺少什么,接着继续努力。那就抓取招聘网站上的信息看一看吧。今天抓取的招聘网站有四个,分别是猎聘、智联招聘、看准、百度百聘。目前我的要求是当我输入职位和城市时,将相关的信息存储到MongoDB数据库,作为学习数据分析的基础数据。这里面我最关心的是任职要求,不过现在还没有学习...

2018-11-20 19:15:33 466

原创 Ubuntu服务器长时间运行爬虫程序

————————————————————————————————————————最近想爬一个小型网站,目前已经拿到的没有去重的URL有30万个,我要进一步拿到URL的详细信息,但因为网站服务器抗压有限(前面的30万个url是因为网站有api,我直接拿到的),基于爬虫程序员的素质,我只能每爬一个URL就sleep几秒,这样就需要很长的一段时间了。(还是淘宝、知乎等大网站好,人家基本是你随便爬,在我...

2018-11-19 10:27:59 1576 2

原创 Windows和Ubuntu安装MongoDB

今天突然想在自己的笔记本和服务器上装MongoDB,遇到一些坑。Windows:安装在c盘以外就报错,无论是data、log、还是mongo程序。只要一直点下一步啥事没有,我表示很无语。Ubuntu : 这个安装就比较坑了,我首先参照的是崔庆才大神的博客,前面一直没什么问题,这里不知道为什么,运行了sudo apt-get install -y mongodb-org之后,输入mongo...

2018-11-17 03:45:49 1701

原创 pyspider抓取伯乐在线python相关所有文章

有点软用的pyspider中文文档(这个翻译的和谷歌翻译差不多,如果没有谷歌翻译插件的可以考虑)英文官方文档(谷歌翻译后完全能看懂,不像python官方的,第三方库的都比较友好)伯乐在线python相关文章了解了requests和aiohttp之后,是时候学习一波框架了,而被吹的最厉害的莫过于scrapy和pyspider了。两个都接触了一下,我发现国人编写的这个pyspider对Windo...

2018-11-12 20:29:56 1539

原创 scrapy抓取知乎所有用户信息

崔庆才老师scrapy爬取知乎用户信息博客我的代码github地址scrapy中文入门文档看完别人操作一遍,肯定要自己动手做一下,否则看的有什么意思呢。我看了一下知乎,发现并没有什么太大的变化,唯一变化的是鼠标移到用户名的时候,显示的信息比老师演示的时候要少,基本和ajax获得的信息一样,所有我爬的时候并没有请求详细信息。说一下我遇到的问题吧,当我爬到一万多条用户消息的时候,响应码全部变...

2018-11-09 16:34:10 913

原创 知乎搜索关键字爬取相关图片

代码github地址程序功能:填写搜索关键字,爬虫就会访问知乎搜索页面并处理返回结果,提取标题、url、点赞数、评论数存储到MongoDB数据库中,然后再依次爬取刚才得到的所有url,获取url中所有内容(广告图片不会获取)图片地址。可以选择下载,默认不下载。只保存图片url到txt文件中。爬取知乎时发现,知乎好像对爬虫很宽容,并没有很难的加密参数,也没有ip频繁检测(不过我并没有加多线程或者...

2018-11-06 15:09:38 1750

原创 爬虫模拟登陆果壳网

-–很多网站需要登录之后爬虫才能获取到有用的信息,一般我们都直接在浏览器复制cookies给爬虫。有些网页可以直接使用爬虫模拟登陆,验证码可以使用图像识别(不过我还没学,就先使用人工了),这样可以达到批量获取cookies。我看到了一个特别简单,适合刚开始练手的网站果壳网。–要想模拟登陆...

2018-11-02 11:50:12 1559 2

原创 爬取乐视电影评论

自从学了爬虫之后,我就想把能爬的东西都爬下来,太难的现在还不会,于是在网上找一些简单的练习。乐视电影评论算一个比较简单的ajax练习了,随便打开一个电影,看了一个浏览器加载的请求,有点多(这里遇到一个小问题,点XHR选项没有内容,但all里面却又有ajax请求,很奇怪),不知道哪个是评论的,于是清空请求,点了一下第二页,看到前两个就是。将参数复制下来,刷新几遍,只有 _和page 一直在变化,p...

2018-11-02 09:14:33 2294

原创 爬取今日头条街拍图的一次教训

本 来只要按照崔大大的步骤一步一步做下去,啥问题没有。但我看完他的操作之后,自己操作了一遍。在街拍_头条搜索这个页面发起ajax请求并没有遇到什么问题,然后理所当然的访问其中一个子页面什么都没有想,我就直接看了一下浏览器有没有ajax请求,看了一下ajax(XHR)的内容发现里面有图片地址,就开始分析请求的参数,有三个参数是一直变化的as、cp、_signature。接着在众多的js文件中搜索...

2018-11-01 16:30:14 874

验证码数据集.zip

kaggle的数据集:https://www.kaggle.com/fournierp/captcha-version-2-images/kernels。可以自行去网站下载

2020-07-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除