python爬虫
Memory_and_Dream
这个作者很懒,什么都没留下…
展开
-
网络爬虫最终方案:chrome插件
最近因为已经提离职了所以比较空,这里分享一下我的一个针对js反爬的最终方案。爬虫的核心:爬虫的核心就是模拟正常用户访问。最低级的反爬虫会检测一些诸如referer,cookie之类的use-agent字段,这种只需要用curl命令一个个删除参数就能知道它所需要的最少的字段信息是哪些了。然后是再高级点,弄出一些很麻烦的js脚本,比如cloudfront以前的5s跳转脚本,这种如果能运行js脚本也能获取到目标参数。然后是一些请求参数特别复杂的,比如fb的网页搜索,他的数据是用过异步请求过来的,不在源码里原创 2022-02-25 15:59:23 · 1915 阅读 · 3 评论 -
python自定义库打包到PYPI+爬虫工具类分享
官方教程python自定义库打包,按教程一步步做就可以了,不过我这里希望打包的是一个单文件,所以需要修改下setup.py 里的py_modules# -*- coding: utf-8 -*-# @Time : 2020/8/31 18:19# @Author : meng_zhihao# @Email : 312141830@qq.com# @File : setup.pyimport setuptoolswith open("README.md", "r") as原创 2020-09-01 11:24:13 · 430 阅读 · 0 评论 -
etree xpath处理中文乱码问题解决
不知道为啥突然碰到一个页面etree xpath获取到的中文是乱码。最后靠加HTMLParser参数搞定。代码如下 @staticmethod def getXpath(xpath, content): hparser = etree.HTMLParser(encoding='utf-8') tree = etree.HTML(content,hparser) out = [] results = tree.xpath(x原创 2020-08-31 10:40:56 · 2435 阅读 · 2 评论 -
Python剔除html中的乱码字符
有时候网页会包含乱码导致xpath解析失败,百度或者谷歌了好久也没发现解决方法,最后只好自己写了一个替换方法,利用报错信息中的position剔除相应的数据。方法如下def remove_error_code(byte_string,charset): for try_times in range(10): try: result = byte_string.decode(charset) break except.原创 2020-08-14 16:40:54 · 328 阅读 · 0 评论