![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
丙丁火
这个作者很懒,什么都没留下…
展开
-
lxml库之etree使用小结
一、etree的Element类1.通过etree.Element()创建XML树from lxml import etreeroot = etree.Element("root")print(root.tag)# 添加子元素root.append(etree.Element("child1"))child2 = etree.SubElement(root,"child2")ch...原创 2019-05-30 12:06:37 · 23325 阅读 · 0 评论 -
Python用Selenium和Chromedriver爬取智联招聘的职位
步骤:1.在智联招聘网站选择好职位关键词和作用地址。2.运行代码。其中注意点1.用driver爬取首页时,会弹出如下图窗口。此时可以在代码中设置睡眠2秒,自己手动取消窗口。2.在这一次爬取中,发现网页的翻页按钮不能单纯用buttonTag.click()点击,于是改为self.driver.execute_script("arguments[0].click()",nextBtn)代码...原创 2019-07-18 14:17:28 · 874 阅读 · 1 评论 -
正则表达式(3):扩展符号
扩展符号函数/方法描述re.I、re.IGNORECASE不区分大小写的匹配re.L、re.LOCALE根据所使用的本地语言环境通过\w、\W、\b、\B、\s、\S 实现匹配re.M、re.MULTILINE^和$分别匹配目标字符串中行的起始和结尾,而不是严格匹配整个字符串本身的起始和结尾re.S、re.DPTALL“.”(点号)通常匹配除了\n(...原创 2019-06-03 17:33:03 · 959 阅读 · 0 评论 -
正则表达式(2) re模块:核心函数和方法
预编译对象方法re模块函数groupgroups使用re.compile模式对象直接使用字符串正则表达式对象匹配对象整个匹配对象子组的元组1.re.compile()函数描述:使用任何可选的标记来编译正则表达式的模式,然后返回一个正则表达式对象。在模式匹配发生前,正则表达式模式必须编译成正则表达式对象。由于正则表达式在执行过程中将进行多次比较操作,因此强烈建议预编译。re.compile()...原创 2019-06-02 13:47:51 · 216 阅读 · 0 评论 -
Xpath语法之谓语小记
谓语用来查找某个特定的节点或者包含某个指定的值的节点,被嵌在方括号中。路径表达式描述/bookstore/book[1]选取bookstore下的第一个book元素/bookstore/book[last()]选取bookstore下的倒数第二个book元素。bookstore/book[position()<4]选取bookstore下前面三个子元素...原创 2019-05-29 17:03:10 · 987 阅读 · 0 评论 -
json文件处理
JSON是以人类更易读的方式传输结构化数据。JSON不使用单引号,每个字符串都使用双引号分隔。JSON与Python的转换示例代码如下:# encoding: utf-8import jsonbooks = { '0132269937': { 'title': 'Core Python Programming', 'edition': 2,...原创 2019-06-06 18:23:56 · 940 阅读 · 0 评论 -
正则表达式(1) 特殊符号和字符
1.常见的正则表达式符号表示法描述正则表达式示例literal匹配文本字符串的字面值literalfoore1|re2匹配正则表达式re1或者re2foo|bar.匹配任何字符(除了\n之外)b.b^匹配字符串起始部分^Dear$匹配字符串终止部分/bin/*sh$*匹配0次或者多次前面出现的正则表达式[A-Za-z0-...原创 2019-06-01 11:26:02 · 3249 阅读 · 0 评论 -
BeautifulSoup4库学习笔记
一、主要的解析器解析器使用方法优势Python标准库BeautifulSoup(text_doc,“html.parser”)* Python的内置标准库* 执行速度适中* 文档容错能力强lxml HTML 解析器BeautifulSoup(text_doc,“lxml”)* 速度快* 文档容错能力强lxml XML解析器BeautifulSoup(t...原创 2019-05-31 12:23:15 · 138 阅读 · 0 评论 -
urllib库使用(2)
当使用urllib库而需要添加请求头,代理,cookie信息时。1.一般的添加请求头情况。示例代码如下:from urllib import requestheaders = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0....原创 2019-05-28 11:34:24 · 104 阅读 · 0 评论 -
urllib库使用(1)
urlopen函数urlopen(urlstr, postQueryData=None)urlopen()将会返回一个文件类型对象,就像在目标路径下打开了一个可读文件。如文件对象是f,那么“句柄”会支持一些读取内容的方法,如f.read(),f.readline(),f.readlines(),f.close()和getcode()等。from urllib import request...原创 2019-05-27 18:03:02 · 85 阅读 · 0 评论 -
豆瓣电影爬虫--简单的小爬虫案例
# encoding: utf-8import requestsfrom lxml import etreeimport jsonurl = 'https://movie.douban.com/cinema/nowplaying/guangzhou/'headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64)...原创 2019-07-16 16:33:46 · 296 阅读 · 0 评论