![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
Vocal_map
这个作者很懒,什么都没留下…
展开
-
2020-11-27 爬虫第二步, 分析HTML代码,仅供学习回顾
分析HTML代码,作者目前喜欢利用正则表达式和XPATH 常用的工具 正则表达式 XPATH beautiful soup 正则表达式 十分强大的工具, 一定要学会的东西 推荐一个练习正则表达式的网站 练习网站 XPATH 首先你需要安装 lxml 包 lxml库是一种专门分析xml文件的包 from lxml import etree tree = etree.parse("t.xml") 相关操作 tree.getroot() root.tag root.getchildren() # 返回的数据原创 2020-11-27 23:39:09 · 176 阅读 · 0 评论 -
2020-11-20 关于近期学习Python爬虫技术的回忆(仅供作者个人检测学习水平,参考价值低)
得益于Python丰富的包,使用Python的编写爬虫已经是一件非常简单的事情了。事实上,爬虫最困难的并不是如何访问资源,而是如何绕过服务器的反爬虫机制 编写爬虫主要分为三步: 访问服务器爬取HTML代码 使用正则表达式等工分析HTML代码或许需要的信息 按照自身需求对所分析出的数据进行存贮,分为:文件存储, 数据库存储 访问服务器: urllib;urllib3;request urllib属于Python标准库,urllib主要注重于url的构建 进行请求 import urllib ''' 当da原创 2020-11-21 13:06:32 · 120 阅读 · 0 评论