qq_50569125-CSDN博客

原创 request方法

method：请求方式，对应get/put/post等七种方法；url：拟获取页面的url链接；kwargs：13个控制访问参数，为可选项（**表示可选）：params：字典或字节序列，作为参数增加到url中。data：字典、字节序列或文件对象，作为向服务器提交资源使用。json：JSON格式的数据，作为Request的内容。headers：字典，HTTP定制请求头部信息。cookies：字典或CookieJar，解析Request中的cookie。auth：元祖，支持HTTP认证功能；f

2022-04-21 14:58:35 107

原创 PY爬虫笔记

爬虫：网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 2.自己理解：通过代码、模拟浏览器上网然后抓取数据的过程2.爬虫是否合法？ 1.法律允许 2.有法律风险的3.统一规定？【法律界限】 robots.txt协议4.爬虫的分类： 1.获取一整张页面【通用爬虫】 ...

2022-04-21 14:53:14 342

原创数据探索预处理

数据探索+ 数据预处理数据探索：1.统计量分析：1.集中趋势的度量：1.均值、中位数、众数2.离散趋势的度量：极值()极差标准差、方差四分位数间距2.相关性分析：通过散点图获取相关系数数据预处理：补充：数据透视表也可以对数据进行分析【聚合统计】group by +agg案例：客户价值分析（用户画像 =》类似）1.基本理论：1.RFM模型2.聚类分析（机器学习里面的算法 =》结果标签）3.RFM聚类分析1.RFM模型 =》获取 RF

2022-04-21 14:49:37 1422

原创 Linux学习

linux ：1.概述 1.为什么要使用linux ？ java、前端、大数据、算法 =》 app 服务器 =》 linux 2. 2.linux 概述： 1.文件操作系统：层级式的文件操作系统 linux 最顶层目录：/ 3.linux版本：广义： ubuntu、小红帽、centos、debian、等基于linux 内核进行开发...

2022-04-21 14:46:46 79

原创机器学习笔记

1.概念 Simple and efficient tools for predictive data analysis 【预测数据分析结果】用机器代替人做决策数据集 =》训练 =》模型 2.Built on NumPy, SciPy, and matplotlib、pandas2.机器学习里面的常用术语： 1.数据集准备色泽= 绿色、根=弯曲、敲声 = 浑浊 =》熟的色泽= 黑色、根...

2022-04-21 14:45:49 1251

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 request方法

原创 PY爬虫笔记

原创 数据探索预处理

原创 Linux学习

原创 机器学习笔记

空空如也

空空如也

原创数据探索预处理

原创机器学习笔记