![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
bingquanweidao
这个作者很懒,什么都没留下…
展开
-
爬虫初体验2:requests+xpath
流程 获取网络源 赋值url 制作headers req = requests.get() 获取 htm = req.text 获得html格式字符串 线程关闭 可参考链接: link. xpath匹配 初始化 tree = etree.HTML(html) 匹配 result = etree.xpath('//html//body') for div in result: ...原创 2020-04-14 22:17:06 · 145 阅读 · 0 评论 -
爬虫初体验1:requests+re
流程 获取网络源 导入requests和re 给url变量赋值,记得准备好headers req = requests.get(url,headers = headers)获得网页内容,html = req.text 获得html格式的网页内容 为了反扒,或许还要对线程进行关闭。 s = request.session() s.keep_alive = False 正则表达式匹配 patte...原创 2020-04-14 21:53:40 · 154 阅读 · 0 评论 -
etree学习纪要1
一、初始化及逆运算 代码 # 初始化 result = etree.HTML() # 逆运算 shuchu = etree.tostring() print(shuchu.decode('utf-8')) 注意点1 初始化之后,会自动加上等进行补齐,这一点如果不注意,在应用xpath做匹配时,直接.xpath(‘/div’)就会出错,因为前面已经被偷偷加上了其他父节点。 注意点2 tostrin...原创 2020-04-14 20:58:28 · 199 阅读 · 0 评论