- 博客(7)
- 收藏
- 关注
原创 Datawhale|第八期 爬虫4
任务预览 模拟登录丁香园,并抓取论坛页面所有的人员基本信息与回复帖子内容。(丁香园:http://www.dxy.cn/bbs/thread/626626#626626 ) 代码: # -*- coding:utf-8 -*- import requests, json, re, random,time from bs4 import BeautifulSoup from selenium imp...
2019-08-12 20:49:04
139
原创 Datawhale|第八期 爬虫3
任务预览 1.安装selenium并学习,使用selenium模拟登陆163邮箱。(163邮箱:https://mail.163.com) 2.学习IP相关知识: 1)学习什么是IP,为什么会出现IP被封,如何应对IP被封的问题。 2) 抓取西刺代理,并构建自己的代理池。(西刺:https://blog.csdn.net/weixin_43720396/article/details/882182...
2019-08-10 20:35:58
90
原创 Datawhale|第八期 爬虫2
任务预览 学习beautifulsoup,并使用beautifulsoup提取内容;使用beautifulsoup提取丁香园论坛的回复内容。(丁香园:http://www.dxy.cn/bbs/thread/626626#626626 ) 学习xpath,使用lxml+xpath提取内容;使用xpath提取丁香园论坛的回复内容。(http://www.dxy.cn/bbs/thread/62662...
2019-08-08 20:52:46
151
原创 Datawhale|第八期 爬虫1
任务预览 1.学习get与post请求,尝试使用requests或者是urllib用get方法向https://www.baidu.com/发出一个请求,并将其返回结果输出。 2.如果是断开了网络,再发出申请,结果又是什么。了解申请返回的状态码。 3.了解什么是请求头,如何添加请求头。 4.学习什么是正则表达式并尝试一些正则表达式并进行匹配。 5.结合requests、re两者的内容爬取https...
2019-08-06 20:14:37
93
原创 DataWhale基础算法作业三:决策树相关
DataWhale基础算法作业三:决策树相关 学习任务 1.信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度) 2.决策树的不同分类算法(ID3算法、C4.5、CART分类树)的原理及应用场景 3.回归树原理 4. 决策树防止过拟合手段 1.基础概念(熵 联合熵 条件熵 信息增益 基尼不纯度) 在信息论与概率统计中,熵是表示随机变量不确定性的度量。 1)熵(entropy) 2)条件熵(co...
2019-02-01 10:31:47
308
原创 DataWhale基础算法作业二(对数回归/逻辑回归相关)
DataWhale基础算法作业二:对数回归(逻辑回归)相关 学习任务 1.Logistic回归损失函数的极大似然推导。(西瓜书公式3.27怎么推来的) 2.Logistic回归损失函数的最优化算法:什么是牛顿法、似牛顿法? 3.为什么不用线性回归做分类? 4.Logistic回归为什么不像线性回归那样用平方损失函数? 5.Logistic回归的参数为什么不像线性回归那样直接公式求解? 6.Logi...
2019-01-29 20:46:02
185
原创 DataWhale基础算法作业一(线性回归相关)
DataWhale基础算法作业一:线性回归 学习任务 1.线性回归损失函数的极大似然推导:西瓜书公式3.4除了用最小二乘法以外,怎么用极大似然推得? 2.一元线性回归的参数求解公式推导:西瓜书公式3.7和3.8怎么推来的? 3.多元线性回归的参数求解公式推导:西瓜书公式3.10和3.11怎么推来的? 4.线性回归损失函数的最优化算法:什么是批量梯度下降、随机梯度下降、小批量梯度下降? 线性回归损失...
2019-01-27 14:51:09
137
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人