爬虫
Slwhy
这个作者很懒,什么都没留下…
展开
-
Fiddle 提交本地 js 文件进行调试
最近学爬虫,需要研究一些前端的 js 代码,但奈何本人 js 一窍不通,只能一点点地修改调试;但如何将本地修改的 js 文件提交到浏览器,又成了一个新的问题,幸好,Fiddle 为我们提供了这个方法,这里我记录了一下操作过程,以及过程中碰到的问题,希望能给大家带来帮助找到请求你要替换的 js 文件的请求 我这里是通过 url 筛选的,一般 也可以用 ‘js’ ‘script’ 等原创 2018-01-12 00:03:00 · 997 阅读 · 0 评论 -
Python 爬取网易云评论
最近闲来无事,研究了一下网易云音乐,发现 ta 客户端传输给服务器的数据是经过加密的,大抵是将你要传输的数据经过两次 AES 加密,因为 AES 是对称加密算法,还需要将 AES 的秘钥以 RSA 的方式加密后传输给服务器。但经过我的分析发现,我们不用登录也是可以浏览到评论的,而且,服务器返回的评论数据,也没有经过加密,如果我们只是简单的想拿到某些歌曲的评论,可以绕过加密算法,直接请求数据。但这样原创 2018-01-11 15:42:01 · 4128 阅读 · 0 评论 -
python 爬取海量网易云评论并写入数据库
本人是一个网易云音乐的重度患者,最近闲来无事,就想起来写一个爬虫爬一下网易云音乐上都有哪些有趣的评论,于此记录一下过程。整体思路可能是我的脑回路那啥,作为一个新手,咱一上来,是直接尝试爬取评论。随便挑了一首歌,进行尝试,看是否能够拿到评论数据。虽然过程有些曲折,但还是让咱拿到了评论。于是开始正儿八经进行分析,应该如何才能拿到大量的评论数据。经过咱的观察。我发现,每一首歌都有一个 id ,如原创 2018-02-03 11:50:07 · 2837 阅读 · 0 评论 -
selenium 使用chrome时与chromedriver版本不匹配的问题
这几天想试一下 selenium 但安装配置好之后,总是会报一个奇怪的错误,具体错误信息如下:selenium.common.exceptions.WebDriverException: Message: unknown error: Runtime.executionContextCreated has invalid 'context': {"auxData":{"frameId":"(7...原创 2018-03-18 20:32:27 · 13602 阅读 · 0 评论 -
selenium 登录 qq
最近突然想分析一下 qq 空间里面的数据,增加一下对自己的了解和认识( 有男神,女神的朋友也可以分析一下,详细了解一下情况,知己知彼,方能百战不殆嘛,嘻嘻)但不过 qq 的加密比较复杂,分析起来头发怕是要掉一半,所以咱选择了 selenium 反正数据量也不是很大,就当练练手了。安装 selenium 及相关配置 pip install selenium可以通过这条命令来安装...原创 2018-03-19 20:59:36 · 2150 阅读 · 0 评论 -
python 处理非标准 json 格式字符串
在写爬虫的时候,会发现很多数据都是通过 json 格式进行传输的,标准的 json 我们可以将其转化为 Python 中的数据类型,进行查询,但对于一些类似于 json 但又非标准 json 格式的字符,就会比较头疼了,这里统计一些咱遇到的非标准的 json 格式,及相应的解析方法。字符串中 key 的值没有被单引号包裹类似于这种字符,看上去格式和 json 很像(眼尖的朋友可能发现了...原创 2018-04-12 17:52:03 · 5695 阅读 · 4 评论 -
python指定书目抓取小说文本
功能简介支持人为指定书目,而后根据书名,通过站内的索引接口进行检索抓取对象为一个比较大型小说网站(网站见代码内),当然如果该站内没有对应小说的文本是无法抓取的书名需要指定,如果要获取书单,直接解析网址首页即可获取较多的数据,本人分析了一下网址,没有发现可以直接遍历整个站内地图的方法,所以就没做遍历站内地图的模板(偷偷说一下,新版的网址支持遍历,不过这个已经能实现咱的需求,就懒得去解析了)...原创 2019-09-02 00:03:16 · 639 阅读 · 1 评论