网页爬取
网络爬取是程序员德基本技能之一
黎雨毫
这个作者很懒,什么都没留下…
展开
-
python爬虫----selenium
selenium相当于机器人,可以完成点击等人类可以做的操作.webdriver是一系列可以驱动不同浏览器的软件,和selenium配合使用.软件准备:安装了selenium这个第三方库和不同浏览器的driver安装测试:from selenium import webdriver#webdriver是用来区分不同的浏览器的#这个是浏览器驱动程序的路径driver_pa...原创 2020-03-29 18:27:59 · 246 阅读 · 0 评论 -
python爬虫之处理资源----xpath(lxml),beautifulsoup(bs4),正则表达式(re)
首先是lxml库:#我用的火狐,安装一个try xpath插件就好了"""xpath路径:1.选取节点: 首先,随便一个节点名称,这是基本 然后,单斜杠,/,如果出现在开头,那就从根节点寻找; 如果在某个节点后面,那就表示在该路径下的直接子节点 还有,双斜杠,//,找去所有可以匹配的节点,不论路径. ...原创 2020-03-28 09:24:06 · 839 阅读 · 0 评论 -
python爬虫之获取资源----urllib,requests
首先是urllib库from urllib import request as refrom urllib import parseurl="http://book.zongheng.com/book/927896.html"#基本的urlopen()方法,返回一个response对象resp=re.urlopen(url,data=None)#response对象的方法,...原创 2020-03-28 09:20:08 · 487 阅读 · 0 评论