![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python爬虫
--aasher
这个作者很懒,什么都没留下…
展开
-
正则表达式(Python)
re.matchre.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回nonere.match(pattern,string,flags=0)pattern-----匹配的正则表达式string-----匹配的字符串flags-----匹配的模式eg.import recontent = 'Hello 1234567 World_This is a...原创 2018-05-20 10:36:11 · 231 阅读 · 0 评论 -
BeautifulSoup
BeautifulSoup灵活又方便的网页解析库,处理高效,支持多种解析器,利用它不用编写正则表达式即可方便地实现网页信息的提取。安装pip install beautifulsoup4解析库Python标准库 BeautifulSoup(markup,"html.parser")lxml HTML 解析库 BeautifulSoup(markup,"lxml") 需要安装C语言库lxml XML...原创 2018-05-30 22:06:23 · 295 阅读 · 0 评论 -
PyQuery
安装pip install pyquery字符串初始化from pyquery import PyQuery as pq doc = pq(html) print(doc('li'))doc CSS选择器,输出5个"li"标签URL初始化from pyquery import PyQuery as pq doc = pq(url='http://www.baidu.com') print(doc(...原创 2018-06-10 10:36:23 · 492 阅读 · 0 评论 -
抓取猫眼Top100名单
import requests from requests.exceptions import RequestException import re import json from multiprocessing import Pool def get_one_page(url): try: headers = {'User-Agent':'Mozilla/5.0 ...原创 2018-07-17 22:16:34 · 191 阅读 · 0 评论