- 博客(5)
- 收藏
- 关注
原创 request方法
method:请求方式,对应get/put/post等七种方法;url:拟获取页面的url链接;kwargs:13个控制访问参数,为可选项(**表示可选):params:字典或字节序列,作为参数增加到url中。data:字典、字节序列或文件对象,作为向服务器提交资源使用。json:JSON格式的数据,作为Request的内容。headers:字典,HTTP定制请求头部信息。cookies:字典或CookieJar,解析Request中的cookie。auth:元祖,支持HTTP认证功能;f
2022-04-21 14:58:35 107
原创 PY爬虫笔记
爬虫: 网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 2.自己理解: 通过代码、模拟浏览器上网 然后抓取数据的过程2.爬虫是否合法? 1.法律允许 2.有法律风险的3.统一规定? 【法律界限】 robots.txt协议4.爬虫的分类: 1.获取一整张页面 【通用爬虫】 ...
2022-04-21 14:53:14 342
原创 数据探索预处理
数据探索+ 数据预处理数据探索:1.统计量分析 :1.集中趋势的度量:1.均值、中位数、众数2.离散趋势的度量:极值()极差标准差、方差四分位数间距2.相关性分析:通过散点图 获取 相关系数数据预处理:补充:数据透视表 也可以对数据 进行分析 【聚合统计 】group by +agg案例:客户价值分析(用户画像 =》 类似 )1.基本理论:1.RFM模型2.聚类分析 (机器学习里面的算法 =》 结果 标签)3.RFM聚类分析1.RFM模型 =》 获取 RF
2022-04-21 14:49:37 1422
原创 Linux学习
linux :1.概述 1.为什么要使用linux ? java、前端、大数据、算法 =》 app 服务器 =》 linux 2. 2.linux 概述: 1.文件操作系统: 层级式的文件操作系统 linux 最顶层目录:/ 3.linux版本: 广义 : ubuntu、小红帽、centos、debian、等 基于linux 内核进行开发...
2022-04-21 14:46:46 79
原创 机器学习笔记
1.概念 Simple and efficient tools for predictive data analysis 【预测数据分析结果】 用机器代替人做决策 数据集 =》 训练 =》 模型 2.Built on NumPy, SciPy, and matplotlib、pandas2.机器学习里面的常用术语 : 1.数据集准备 色泽= 绿色 、根=弯曲 、 敲声 = 浑浊 =》 熟的 色泽= 黑色 、根...
2022-04-21 14:45:49 1251
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人