Python学习杂记(网络爬虫)

最新推荐文章于 2023-09-11 15:55:37 发布

人工智障从业者

最新推荐文章于 2023-09-11 15:55:37 发布

阅读量217

点赞数

分类专栏：技术文章标签： python

本文链接：https://blog.csdn.net/u013693763/article/details/78230857

版权

技术专栏收录该内容

11 篇文章 0 订阅

订阅专栏

网络爬虫的第一步：
根据URL，获取网页的HTML信息。Python3中，可以使用urllib.request和requests进行网页爬取。
Urllib3是一个功能强大，条理清晰，用于HTTP客户端的Python库。
如何将信息输入到文本框内？
如果会报编码错误，其原因是网页及python的编码都是utf-8，在写进txt时Windows默认转码成gbk，遇到某些gbk不支持的字符就会报错。
with open(‘E:\Python_note/Spider_baidu.txt’,’w+’,encoding=’utf-8’) as f:
f.write(req.text)
通过这一句表示，将req.text文本按utf-8的格式写入E:\Python_note\Spider_baidu.txt目录下,如果Spider_baidu.txt不存在则会创建一个txt文本。

爬虫的第一步是获取整个网页的HTML信息，第二部则是解析HTML信息，提取我们感兴趣的内容。提取的方法有很多，可以用正则表达式，Xpath、Beautiful Soup等。

遇到的问题：
如何将resultset 转换成 str
直接用str（resultse）强行转换。

Beautiful Soup中的find()函数与find_all():
find（name,attrs,recursive,text,**wargs）
过滤参数：
查找标签，基于name参数
查找文本，基于text参数
基于正则表达式的查找
标签属性的查找，基于attrs参数
基于函数的查找

find()用来查找第一个匹配结果出现的地方，而find_all()正如名字所示，将会找到所有匹配结果出现的地方。应用到find()中的不同过滤参数同理可以用到find_all()中，实际上，过滤参数可以用于任何查找函数，如find_parents()或和find_siblings()。

未完待续…….