![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
qq_43109978
这个作者很懒,什么都没留下…
展开
-
python爬虫基础--1
1,网络爬虫的定义网络爬虫就是根据网页的地址来寻找网页的,也就是URL。URL就是同意资源定位符(Uniform Resource Locator),它的一般格式如下(带方括号[]的为可选项):protocol:// hostname[:port] / path / [;parameters][?query]#fragmentURL的格式由三部分组成:(1)protocol:第一部分就是...原创 2019-07-13 12:34:53 · 99 阅读 · 0 评论 -
python爬虫基础--2(urlopen)
一、urlopen的url参数urllib.request.urlopen(url,data = None,[ timeout,] *,cafile = None,capath = None,cadefault = False,context = None )其中,url不仅可以是一个字符串,也可以是一个request对象,这就需要我们先定义一个Request对象,然后将这个Request对...原创 2019-07-13 12:38:50 · 241 阅读 · 0 评论 -
python爬虫基础--3(urllib.error异常)
一.urllib.errorurllib.error可以接收由urllib.request产生的异常。urllib.error有两个方法,URLError和HTTPError。1.URLErrorfrom urllib import requestfrom urllib import errorif __name__ == "__main__": url = "http://...原创 2019-07-13 12:41:15 · 209 阅读 · 0 评论 -
python爬虫基础--4(用User-Agent和代理ip隐藏身份)
一、为何要设置User Agent有一些网站不喜欢被爬虫程序访问,所以会检测连接对象,如果是爬虫程序,也就是非人点击访问,它就会不让你继续访问,所以为了要让程序可以正常运行,需要隐藏自己的爬虫程序的身份。此时,我们就可以通过设置User Agent的来达到隐藏身份的目的,User Agent的中文名为用户代理,简称UA。User Agent存放于Headers中,服务器就是通过查看Header...原创 2019-07-13 12:45:49 · 455 阅读 · 0 评论 -
python爬虫基础--5(正则表达式)
1,特殊字符^,$,.,*import restr = "zhaoheng"^ 匹配字符串的开头,.匹配任意字符*匹配0次或多次,$匹配字符串的结尾,+至少匹配一次#表示,匹配以z开头的,中间任意字符,后面以g结尾的reg_str = "^z.*g$"if re.match(reg_str,str): print("yes")2,非贪婪匹配之?import re...原创 2019-07-13 12:54:28 · 249 阅读 · 0 评论 -
scrapy---基础
一,概念Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,可以应用于数据挖掘,信息处理或存储历史数据等一些列的程序中。Scrapy最初就是为了网络爬取而设计的。<1>, requests和beautifulsoup是库,scrapy是框架<2>, scrapy框架中可以加入requests和beautifulsoup<3>, scrap...原创 2019-07-13 13:04:16 · 133 阅读 · 0 评论 -
scrapy爬虫示例
一,新建项目及调试1,先进入虚拟环境(虚拟环境中下载好了scrapy)#创建工程scrapy startproject ArticleSpider#生成爬虫模板cd ArticleSpiderscrapy genspider wenzhang duwenzhang.com2,在Pycharm中选择解释器3,进行调试,新建main文件<1>启动爬虫scrapy cr...原创 2019-07-13 22:16:05 · 255 阅读 · 0 评论 -
selenium操作
1,浏览器自动化测试框架seleniumpip install seleniumselinum是api接口而已,真正调用的还是浏览器,需要浏览器的driver完成下载谷歌driver,并放到谷歌浏览器的可执行文件下边使用from selenium import webdriver,在run的时候却出现ImportError: cannot import name webdriver的提示...原创 2019-07-13 22:46:23 · 121 阅读 · 0 评论 -
暂停与重启scrapy爬虫
需要记住爬虫状态,新建job_infoscrapy crawl wenzhang -s JOBDIR=job_info/001爬虫结束的信号是ctrl+c(win+linux都有效)的命令,不能kill掉进程,因为这样无法发送ctrl+c的信号,按两次ctrl+c意味着强制退出,也无法发送信号crtl+c后,不会立即停止,会进行一些善后工作,比如一些已经发出去的request,需要等它返...原创 2019-07-23 18:42:45 · 436 阅读 · 0 评论