爬虫
jianmoumou233
这个作者很懒,什么都没留下…
展开
-
浏览器 User-Agent
浏览器 User-Agent。原创 2023-02-24 19:09:27 · 1132 阅读 · 0 评论 -
一行代码搞定 Protobuf 格式解析
一行代码解析protobuf原创 2022-08-19 11:05:32 · 500 阅读 · 0 评论 -
scrapy框架 POST请求报400错误
scrapy框架 POST请求报400错误最近使用scrapy post 经常出现400错误,经过排查,大部分原因是因为headers 里面有 content-length;去掉即可。原创 2021-04-06 17:27:00 · 353 阅读 · 1 评论 -
爬虫--西瓜视频app弹幕url分析
说明: 仅供学习同事需要搞 西瓜视频app的 弹幕,他抓到了包,找到了弹幕的api,但是api返回的数据不对,混淆了或者格式有问题,初步猜测可能做了混淆,逆向咱也不会,咋办,,,, 能咋办,放弃呗。返回数据如下:仔细想一下,应该不是 混淆 ,不然中文不可能能显示出来,这时想起我以前遇到过这个奇怪的是,数据返回也是乱码,通过分析是 request 的headers 有个参数'Accept-E...原创 2019-08-08 09:20:56 · 1133 阅读 · 4 评论 -
腾讯课堂IT培训课程爬虫+分析
说明: 仅供自己学习matplotlip和数据分析。闲来无趣,安卓刚兴起,培训班兴起,网上培训如雨后春笋。培训机构刚开始在网上放些免费的,入门级的课程,提高自己的机构的知名度,从而引流到付费课程。网友到都是 尚学堂。黑马程序,马哥教育的‘泄露’机密课程视频。从心理学角度看待这个问题就会明白,这类视频应该是机构自己泄露的。现在腾讯课堂里面的课程相对来说越来越多,学的人也很多。免费的东西多多少少还是...原创 2019-08-02 16:28:11 · 1150 阅读 · 2 评论 -
爬虫-猫眼电影票房
背景最近也不知道咋了,一直遇到 字体反爬手段,起点中文网,抖音等等吧,猫眼我一直想搞,只是没有精力了,前面搞了2个了,不差这一个。搞完这个,不在搞字体反爬了。目标网站 猫眼票房:https://piaofang.maoyan.com/?ver=normal就这个鬼看源码:这不和抖音 起点一样,窃喜.jpg那就查找字体 的url 或者文件 。这个网页没有,好像详情页是有url的 ...原创 2019-07-07 17:53:08 · 32384 阅读 · 3 评论 -
一个奇怪的网站-- 猫眼
偶尔的机会发现一个神奇的网猫眼,有个同事想把猫眼的首页的 城市的 url和ID 搞下来。根据以往的经验 如果网页源码里面没有,那就是ajax 抓包分析,查看源码:查找上海没有。那就抓包:我擦,就这个请求,没有ajax请求的url。这怪了,那城市是从哪过来的呢,没有 ajax 请求,那就一个个分析js吧,:先找个关键词:一个一个的去js查找这个:从他开始:哈哈哈,居然有了:...原创 2019-07-07 17:53:28 · 1452 阅读 · 0 评论 -
字体文件反反爬-- 起点中文网
工作中遇到一个,以前没有遇到的问题是,网站把重要的数字都转换成 其他的东西爬取网站https://book.qidian.com/info/1011454545 起点女生网通过审查元素是这样的:查看网页源码:通过搜索查找,原来网站做了反扒的措施,正好前几天看个关于这样的文章,教怎样反爬的。通过搜索引擎查找相关的资料,原来有人做过类似的反反爬,猫眼,汽车之家都是这种方式....原创 2019-07-07 17:53:58 · 2999 阅读 · 3 评论 -
爬虫好搭档之parsel
parsel 是scrapy 出品的,也是scrapy内置的选择器包含re、css、xpath选择器,依赖lxml,比起bs4好用的不要不要的。 用过scrapy,再用它,其实都是一样的,scrapy团队把它单独出来了个库,这样可以单独使用,不必使用scrapy 1. 安装: pip install parsel or easy_install parsel 2. 结合requests...原创 2019-07-07 17:57:46 · 11085 阅读 · 0 评论 -
爬虫之 爬取京东计算机书籍
爬取京东的计算机类书籍1. 工具: requests, pycharm, scrapy, mongodb2. 网页提取工具: xpath1. 分析京东网页:打开京东网站 查看源码发现不是动态网页,而且都是列表, 说明了很好处理;开始分析;我们只要提取书名,书的链接, 书的出版社,书的作者,评价数,价格I注意一下,书的价格, 评论数,源码并没有,说明是ajax请求;...原创 2019-07-07 17:56:41 · 5313 阅读 · 0 评论 -
爬虫之scrapy和splash 结合爬取动态网页
scrapy和splash 结合爬取动态网页安装scrapy-splash: pip install scrapy-splash安装splash: sudo docker pull scrapinghub/splash运行splash: docker run -it -d -p 8050:8050 --name splash scrapinghub/splash编写scrap...原创 2019-07-07 17:58:06 · 1407 阅读 · 0 评论 -
爬虫好搭档之 w3lib
time: 2018/04/10w3lib 是scrapy的基础插件,用来处理html,灰常的好用,清理文本带有HTML标签的数据;官方文档 1. w3lib.encoding.html_body_declared_encoding(html_body_str) 作用是返回网页的编码,如果网页有<meta charset=utf-8>就会返回utf-8 2. w3lib...原创 2019-07-07 17:57:53 · 2120 阅读 · 0 评论 -
scrapy 出现400 Bad Request 问题
scrapy 出现400 Bad Request 问题遇到400解决思路: 1.检查url连接,有的url最后有’/’ 有的没有,看看是不是这个原因造成。如有’/’,去掉试试,没有去掉试试; 2.设置 scrapy COOKIES_ENABLED = False原创 2019-07-07 17:58:33 · 3353 阅读 · 0 评论