![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫
文章平均质量分 70
sunlizhao31
这个作者很懒,什么都没留下…
展开
-
虚拟环境安装Scrapy框架
Scrapy框架涉及到依赖库,采用本地安装建议在虚拟环境中安装python -m venv Scrapycd Scrapycd Scriptsactivatepython3.3以上可以通过上面的步骤进入虚拟环境升级pippython -m pip install --upgrade pip下载lxml文件https://www.lfd.uci.edu/~gohlke/py...原创 2018-05-13 21:09:00 · 172 阅读 · 0 评论 -
基本库requestes
requests, 轻松实现cookies,登陆验证,代理设置import requestsr = requests.get('http://www.baidu.com')print(r.text)可以通过params这个参数进行附加的额外信息data = {"name":"slz", "age":"19",}r=requests.get("htt...原创 2018-06-05 20:50:00 · 1024 阅读 · 0 评论 -
正则表达式
正则表达式是处理字符串的强大工具,他有自己特定的语法结构常用匹配规则\w 匹配字母,数字及字符串 \W 匹配不是数字,字母及字符串的字符 \s 匹配任意空白字符, \S 匹配任意非空白字符 \d 匹配任意数字 \D 匹配任意非数组的字符 \A 匹配字符串开头 \Z 匹配字符串结尾,如果存在换行,只匹...原创 2018-06-07 10:37:00 · 162 阅读 · 0 评论 -
xpath
xpath全称XML Path language, 即xml路径语言,最初用来搜寻xml文档的,同样适用于html文档的搜寻常用规则: nodename 选取此节点的所有子节点 / 从当前节点选取直接子节点 // 从当前节点选取子孙节点 . 选取当前节点 .. 选取当前借点的父节点 @ 选取属性 from lxml import...原创 2018-06-10 16:16:00 · 94 阅读 · 0 评论 -
pyquery
如果你对web有所涉及,比较喜欢css选择器,对jquery有所了解,那么有一个更加适合你的解析库--pyquery初始化有多种方法比如传入字符串,传入url,传入文件名字符串初始化from pyquery import PyQuery as pqdoc = pq(html)print(doc("li"))url初始化from pyquery import PyQuer...原创 2018-06-20 11:16:00 · 86 阅读 · 0 评论 -
scrapy的全局命令和项目命令
全局命令startprojectgenspidersettingsrunspidershellfetchviewversion这些全局命令就是不依托项目存在的,也就是不管你有没有项目都能够运行startproject创建项目scrapy startproject quotetutorial genspider列出所有模板scrapy gens...原创 2018-08-31 10:15:00 · 284 阅读 · 0 评论