打卡
JerryZengZ
这个作者很懒,什么都没留下…
展开
-
爬虫前行中(datawhale task4)
腾讯新闻爬取from selenium import webdriverfrom lxml import etreeimport timeurl = 'https://news.qq.com/'bro = webdriver.Chrome()bro.get(url)for i in range(5): bro.execute_script('window.scrollTo(0...原创 2020-04-27 15:09:15 · 227 阅读 · 0 评论 -
爬虫进行中(datawhale task3)
本次目标:了解session和cookie,ip代理知识,selenium的使用,拔高:实现丁香园的模拟登录爬取留言板session和cookie因为http是无状态的,就是说这一次请求和上一次请求是没有任何关系的,互不认识的,没有关联的。这种无状态的的好处是快速。坏处是假如我们想要把www.zhihu.com/login.html和www.zhihu.com/index.html关联起来,...原创 2020-04-24 15:46:06 · 270 阅读 · 0 评论 -
爬虫前行中(datawhale task2)
本次需要了解bs4库的使用,xpath,正则表达式并实现案例bs4库的使用Beautiful Soup 是一个HTML/XML 的解析器,主要用于解析和提取 HTML/XML 数据。 它基于HTML DOM 的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。 BeautifulSoup 用来解析 HTML 比较简单,API非常人性化,支持CSS选择器、...原创 2020-04-23 17:03:14 · 317 阅读 · 0 评论 -
爬虫前行中(datawhale task1)
了解http基础http协议方法:GET 请求指定的页面信息,并返回实体主体。 HEAD 类似于get请求,只不过返回的响应中没有具体的内容,用于获取报头POST 向指定资源提交数据进行处理请求(例如提交表单或者上传文件)。数据被包含在请求体中。POST请求可能会导致新的资源的建立和/或已有资源的修改。PUT 从客户端向服务器传送的数据取代指定的文档的内容...原创 2020-04-20 10:25:36 · 301 阅读 · 0 评论 -
DataWhale数据挖掘(二手车价格预测)第五次打卡
模型融合目标1、对于多种调参完成的模型进行模型融合。2、完成对于多种模型的融合,提交融合结果。导入库和数据import itertoolsimport matplotlib.gridspec as gridspecfrom sklearn import datasetsfrom sklearn.linear_model import LogisticRegressionfrom s...原创 2020-04-04 11:59:19 · 276 阅读 · 0 评论 -
DataWhale数据挖掘(二手车价格预测)第四次打卡
建模调参特征工程目标1、了解常用的机器学习模型,2、掌握机器学习模型的建模与调参流程(主要通过模型的效果来调参)线性回归模型sample_feature=sample_feature.dropna().replace('-',0).reset_index(drop=True)sample_feature['notRepairedDamage']=sample_feature['not...原创 2020-04-01 18:26:52 · 262 阅读 · 0 评论 -
DataWhale数据挖掘(二手车价格预测)第三次打卡
特征工程目的1、对于特征进行进一步分析,并对于数据进行处理2、完成对于特征工程的分析,并对于数据进行一些图表分析删除异常值通过用3/4分为数和1/4分为数划分异常范围,之间删除异常值#删除异常值函数def outliers_proc(data,col_name,scale=3): ''' 用于清洗数据 :param data : pandas格式数据 ...原创 2020-03-27 13:37:26 · 294 阅读 · 0 评论 -
DataWhale数据挖掘(二手车价格预测)第二次打卡
数据分析前言:EDA的价值主要在于熟悉数据集,了解数据集,对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。当了解了数据集之后我们下一步就是要去了解变量间的相互关系以及变量与预测值之间的存在关系。引导数据科学从业者进行数据处理以及特征工程的步骤,使数据集的结构和特征集让接下来的预测问题更加可靠。载入各种数据科学以及可视化库(都是使用常用的库)载入数据#se...原创 2020-03-24 13:50:11 · 407 阅读 · 0 评论