![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
【4】Python爬虫
文章平均质量分 79
Python爬虫学习
|旧市拾荒|
三年工作经验,任职于某银行科技部门,从事后端开发与数据开发。
展开
-
python爬虫学习之使用XPath解析开奖网站
trTags = xpath_tree.xpath( '//tr[not(@*)]' ) # 匹配所有tr下没有任何属性的节点。# print("找到了html标签")BeautifulSoup库、XPath(需手动安装)urllib库(内置的python库,无需手动安装)进入网站,查看网站基本信息,注意一共要爬取118页数据。第二步,查看网页源代码,熟悉网页结构,标签等信息。这个开奖网站所有的信息,并且保存为txt文件。#3、爬虫模块(Spider)实例需求:运用python语言爬取。原创 2022-10-09 21:11:22 · 1872 阅读 · 2 评论 -
python爬虫学习之XPath基本语法
XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。谓语用来查找某个特定的节点或者包含某个指定的值的节点。谓语被嵌在方括号中。注释:假如路径起始于正斜杠(/),则此路径始终代表到某元素的绝对路径!通过在路径表达式中使用 "|" 运算符,您可以选取若干个路径。XPath 通配符可用来选取未知的 XML 元素。我们将在下面的例子中使用这个XML文档。选取根元素bookstore。原创 2022-10-09 21:10:04 · 120 阅读 · 0 评论 -
python爬虫学习之Scrapy框架的工作原理
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了 页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。这里贴出的链接。原创 2022-10-09 21:09:15 · 973 阅读 · 0 评论 -
python爬虫学习之使用BeautifulSoup库爬取开奖网站信息-模块化
5、Piplines模块:对已经爬取的数据做后续处理(存入数据库、存入文件系统、传递给流式处理框架,等等)urllib库、re库(内置的python库,无需手动安装)2、网络模块(network):发起网络请求,并接受服务器返回。数据量有点大,可能需要等一会儿,下面为程序运行结束后的文件夹。1、调度模块(Scheduler):安排发起网络请求的策略。进入网站,查看网站基本信息,注意一共要爬取118页数据。第二步,查看网页源代码,熟悉网页结构,标签等信息。3、爬虫模块(Spider):解析、爬取数据。原创 2022-09-27 22:11:50 · 445 阅读 · 0 评论 -
python爬虫学习之日志记录模块
self.logFile = sys.argv[0][0:-3] + '.log' #print(sys.argv[0]) 代表文件名 输出 mylog.py。这次的代码就是一个日志记录模块,代码很容易懂,注释很详细,也不需要安装什么库。提供的功能是日志可以显示在屏幕上并且保存在日志文件中。mylog.debug(u"I'm debug 测试中文")mylog.error(u"I'm error 测试中文")# 日志显示到屏幕上并输出到日志文件内。# 日志的5个级别对应以下的5个函数。原创 2022-09-27 22:08:34 · 289 阅读 · 0 评论 -
python爬虫学习之正则表达式的基本使用
1. 正则表达式是字符串处理的有力工具和技术。2. 正则表达式使用某种预定义的模式去匹配一类具有共同特征的字符串,主要用于处理字符串,可以快速、准确地完成复杂的查找、替换等处理要求,在文本编辑与处理、网页爬虫之类的场合中有重要应用。3. Python中,re模块提供了正则表达式操作所需要的功能。原创 2022-09-25 22:43:14 · 210 阅读 · 0 评论 -
Python爬虫学习之正则表达式爬取个人博客
', a, re.S) #摘要(32 t2 = re.findall(r'原创 2022-09-25 22:42:29 · 189 阅读 · 0 评论 -
python爬虫学习之爬取全国各省市县级城市邮政编码
实例需求:运用python语言在ip查询 查ip 网站ip查询 同ip网站查询 iP反查域名 iP查域名 同ip域名网站爬取全国各个省市县级城市的邮政编码,并且保存在excel文件中实例环境:python3.7 requests库(内置的python库,无需手动安装) xlwt库(需要自己手动安装)实例网站: 第一步,在ip查询 查ip 网站ip查询 同ip网站查询 iP反查域名 iP查域名 同ip域名网站通过查询源代码可以找到各个省份的链接 第二步,点击链接,即可看原创 2022-09-24 18:26:58 · 1109 阅读 · 0 评论 -
python爬虫学习之查询IP地址对应的归属地
话不多说,直接上代码吧。import requestsdef getIpAddr(url): response = requests.get(url) response.encoding=response.apparent_encoding content = response.text #print(len("四川省成都市 电信")) python 汉字算一个字节 #print(type(content)) str = conte原创 2022-09-24 18:25:46 · 636 阅读 · 0 评论