![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
就叫温华啦
这个作者很懒,什么都没留下…
展开
-
爬虫 之 re库
A表示正则的规则,B表示字符串 match() 从开头开始匹配,若开头就匹配失败,则返回为None result = re.match('~~A~~','~~B~~') result.group() 若A:的规则中有用 小括号() 圈起来东西,可以按顺序由 result.group(1) result.group(2) .......等匹配得到 sear...原创 2018-11-15 14:55:17 · 127 阅读 · 0 评论 -
爬虫 之 xpath 库
from lxml import etree html = etree.parse('~~某html文本~~.txt',etree.HTMLParser()) result = html.xpath('//*') print(result) 我们这次的目标,就是看看 xpath() 的参数能找到哪些节点或者属性或者文本内容 第一步,定位节点(定位了节点,才能取其属性值、...原创 2018-11-15 15:39:00 · 105 阅读 · 0 评论 -
爬虫 之 BeautifulSoup
from import BeautifulSoup html = '~~~~~~~~~~~~~' soup = BeautifulSoup(html, 'lxml') print(soup.title.string) 简单情况 生成soup对象,用该对象选择节点,然后提取属性值或者文本值,这就是这篇博客的目的了 获取直接子节点: print(soup.p.content...原创 2018-11-16 14:29:52 · 138 阅读 · 0 评论 -
爬虫 之 pyquery
这次是pyquery,适合通过css找节点,然后提取数据。 找父节点、找字节点、找兄弟节点 提取属性信息、提取文本信息、提取html信息 修改节点内容 ok,开始。 基本的导入与使用 from pyquery import PyQuery as pq html= ‘’‘~~~~~~~~‘’‘ doc = pq(html) print(doc('li')) 其实,初始化P...原创 2018-11-26 21:36:38 · 187 阅读 · 0 评论 -
爬虫 之 数据存储(txt、json、csv)
我们用 requests抓取到了页面 然后用beautifulsoup 或 pyquery解析提取了目标数据,接下来就是要存储啦。 可以存储为三种数据: txt txt存储非常方便,如果不考虑查找和数据结构,就直接选这个吧 json csv txt: get_data = '~~~~~~' with open('data.txt','w',encoding='utf-...原创 2018-11-27 09:53:58 · 614 阅读 · 1 评论