自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 request方法

method:请求方式,对应get/put/post等七种方法;url:拟获取页面的url链接;kwargs:13个控制访问参数,为可选项(**表示可选):params:字典或字节序列,作为参数增加到url中。data:字典、字节序列或文件对象,作为向服务器提交资源使用。json:JSON格式的数据,作为Request的内容。headers:字典,HTTP定制请求头部信息。cookies:字典或CookieJar,解析Request中的cookie。auth:元祖,支持HTTP认证功能;f

2022-04-21 14:58:35 107

原创 PY爬虫笔记

爬虫: 网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 2.自己理解: 通过代码、模拟浏览器上网 然后抓取数据的过程2.爬虫是否合法? 1.法律允许 2.有法律风险的3.统一规定? 【法律界限】 robots.txt协议4.爬虫的分类: 1.获取一整张页面 【通用爬虫】 ...

2022-04-21 14:53:14 342

原创 数据探索预处理

数据探索+ 数据预处理数据探索:1.统计量分析 :1.集中趋势的度量:1.均值、中位数、众数2.离散趋势的度量:极值()极差标准差、方差四分位数间距2.相关性分析:通过散点图 获取 相关系数数据预处理:补充:数据透视表 也可以对数据 进行分析 【聚合统计 】group by +agg案例:客户价值分析(用户画像 =》 类似 )1.基本理论:1.RFM模型2.聚类分析 (机器学习里面的算法 =》 结果 标签)3.RFM聚类分析1.RFM模型 =》 获取 RF

2022-04-21 14:49:37 1422

原创 Linux学习

linux :1.概述 1.为什么要使用linux ? java、前端、大数据、算法 =》 app 服务器 =》 linux 2. 2.linux 概述: 1.文件操作系统: 层级式的文件操作系统 linux 最顶层目录:/ 3.linux版本: 广义 : ubuntu、小红帽、centos、debian、等 基于linux 内核进行开发...

2022-04-21 14:46:46 79

原创 机器学习笔记

1.概念 Simple and efficient tools for predictive data analysis 【预测数据分析结果】 用机器代替人做决策 数据集 =》 训练 =》 模型 2.Built on NumPy, SciPy, and matplotlib、pandas2.机器学习里面的常用术语 : 1.数据集准备 色泽= 绿色 、根=弯曲 、 敲声 = 浑浊 =》 熟的 色泽= 黑色 、根...

2022-04-21 14:45:49 1251

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除