爬虫
文章平均质量分 72
爬虫学习
就是狒狒呗
已知的已知,已知的未知,未知的未知。
展开
-
初级算法梳理(一)
1、机器学习概念1)有监督学习:训练数据有标记信息(标记:关于示例结果的信息)。2)无监督学习:训练数据无标记信息。3)泛化能力:学得模型适应“新样本”的能力。4)过拟合:由于假设函数过度拟合训练集数据而失去了泛化能力,导致对新的数据预测不好。其产生原因通常是复杂的假设函数包含了一些与数据无关的不必要的特征项。5)欠拟合:模型没有很好地捕捉到数据特征,不能够很好地拟合数据。其产生原因通常...原创 2019-03-29 20:20:01 · 461 阅读 · 0 评论 -
selenium模拟登录163邮箱
一、任务安装selenium并学习。使用selenium模拟登陆163邮箱。163邮箱直通点:https://mail.163.com/二、代码from selenium import webdriverimport timebrowser = webdriver.Chrome() #声明一个浏览器对象url = 'https://mail.163.com/'browser...原创 2019-03-06 00:52:29 · 463 阅读 · 0 评论 -
使用urllib进行get或post请求
1、学习get和post请求,尝试使用requests或者是urllib用get方法baidu发出一个请求,并将其返回结果输出import urllib.requesturl = ‘https://www.baidu.com’response = urllib.request.urlopen(url)print(response.read())输出结果是:2、断开网络再发出请求,结果...原创 2019-03-03 01:14:40 · 4560 阅读 · 0 评论 -
使用python爬取豆瓣top250的内容
一、学习内容:学习什么是正则表达式并尝试一些正则表达式并进行匹配。然后结合requests、re两者的内容爬取https://movie.douban.com/top250里的内容要求抓取名次、影片名称、国家、导演等字段。二、学习成果1、正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。...原创 2019-03-03 13:03:58 · 218 阅读 · 0 评论 -
python--使用beautifulsoup爬取香园论坛
一、beautifulsoup介绍beautifulsoup是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parse tree)。 它提供简单又常用的导航(navigating),搜索以及修改剖析树的操作。它可以大大节省你的编程时间。python3导入BeautifulSoup:from bs4 import BeautifulSoup举例:f...原创 2019-03-04 02:44:35 · 196 阅读 · 0 评论 -
应对IP被封--抓取西刺代理,并构建自己的代理池
一、IP简介:互联网协议地址(英语:Internet Protocol Address,又译为网际协议地址),缩写为IP地址(英语:IP Address),是分配给网络上使用网际协议(英语:Internet Protocol, IP)的设备的数字标签。常见的IP地址分为IPv4与IPv6两大类,但是也有其他不常用的小分类。1、IPV4IP地址由32位二进制数组成,为便于使用,常以XXX.XX...原创 2019-03-07 10:38:11 · 487 阅读 · 0 评论 -
python--使用xpath爬取丁香园论坛的回复内容
一、学习内容学习xpath,使用lxml+xpath提取内容。使用xpath提取丁香园论坛的回复内容。丁香园直通点:http://www.dxy.cn/bbs/thread/626626#626626二、代码示例import requestsfrom lxml import etreedef dx_reply(): url = 'http://www.dxy.cn/bb...原创 2019-03-04 20:24:10 · 243 阅读 · 0 评论