自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(39)
  • 收藏
  • 关注

原创 vue-创建vue项目记录

先安装node.js的运行环境。

2024-03-11 23:15:22 1588

原创 数据库 -neo4j的基本操作

终端输入:neo4j.bat console。

2024-02-27 22:09:25 606

原创 爬虫-Scrapy框架(vscode)

引擎 (engine):Scrapy的核心,所有模块的衔接,数据流程梳理。调度器 (scheduler):本质上这东西可以看成是一个队列,里面存放着一堆我们即将要发送的请求,可以看成是一个URL的容器。它决定了下一步要去爬取哪一个URL,通常我们在这里可以对URL进行去重操作。下载器 (downloader):它的本质就是用来发动请求的一个模块,完全可以把它理解成实现 get_page_source() 功能的模块,只不过它返回的是一个response对象。

2024-01-25 21:58:45 2011

原创 爬虫-ConnectTimeout,ReadTimeout解决

服务器在指定时间内没有应答,抛出若分别指定连接和读取的超时时间,服务器在指定时间没有应答,抛出- 连接:客户端连接服务器并并发送http请求服务器- 读取:客户端等待服务器发送第一个字节之前的时间报错原因:出现连接超时要么是因为访问过快导致对方服务器连接超时,要么是因为被发现是爬虫程序了。

2024-01-14 12:38:10 1469

原创 数据挖掘任务

序列数据和时间序列数据都是连续的观察值,观察值相互依赖,区别在于序列包含离散的状态,而时间序列包含的是连续的数值;序列和关联数据有相似,都是包含一个项集或一组状态,区别在于序列模型分析的是状态的转移,而关联模型认为购物篮的每个商品平等且独立。它可以应用到客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等,如一个汽车零售商将客户按照对汽车的喜好划分成不同的类,这样营销人员就可以将新型汽车的广告手册直接邮寄到有这种喜好的客户手中,从而大大增加了商业机会。既然骰子是均匀的,这就是概率计算。

2023-02-16 14:12:31 27

原创 数据挖掘--距离小结

在做分类时常常需要估算不同样本之间的相似性度量(SimilarityMeasurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。本文的目的就是对常用的相似性度量作一个总结。欧氏距离是最易于理解的一种距离计算方法,源自欧氏空间中两点间的距离公式。

2023-02-16 12:55:02 29

原创 数据挖掘11--总结

python

2023-02-15 21:25:07 14

原创 数据挖掘10--特征选择

是交叉验证中常用的函数,功能是从样本中随机的按比例选取train data和testdata,形式为:*logistic回归)模型:实际上分类算法C:正则化强度的倒数,必须是一个大于0的浮点数,不填写默认1.0,即默认正则项与损失函数的比值是1:1。C越小,损失函数会越小,模型对损失函数的惩罚越重,正则化的效力越强,参数会逐渐被压缩得越来越小。

2023-02-15 21:18:09 349

原创 数据挖掘09--决策树

多变量决策树(multi-variate decision tree) 同时,无论是ID3, C4.5还是CART,在做特征选择的时候都是选择最优的一个特征来做分类决策,但是大多数,分类决策不应该是由某一个特征决定的,而是应该由一组特征决定的。那么,对应到混淆矩阵中,那肯定是希望TP与TN的数量大,而FP与FN的数量小。二级指标 但是,混淆矩阵里面统计的是个数,有时候面对大量的数据,光凭算个数,很难衡量模型的优劣。以猫为例,在总共18只真猫中,我们的模型认为里面只有10只是猫,剩下的3只是狗,5只都是猪。

2023-02-15 19:26:55 59

原创 数据挖掘08--线性回归

学习目标知道全梯度下降算法的原理知道随机梯度下降算法的原理知道随机平均梯度下降算法的原理知道小批量梯度下降算法的原理全梯度下降算法(Full gradient descent),随机梯度下降算法(Stochastic gradient descent),小批量梯度下降算法(Mini-batch gradient descent),随机平均梯度下降算法(Stochastic average gradient descent)

2023-02-15 17:22:47 42

原创 数据挖掘07--K近邻算法

load和fetch返回的数据类型datasets.base.Bunch(字典格式)data:特征数据数组,是 [n_samples * n_features] 的二维 numpy.ndarray 数组target:标签数组,是 n_samples 的一维 numpy.ndarray 数组DESCR:数据描述feature_names:特征名,新闻数据,手写数字、回归数据集没有target_names:标签名# 获取鸢尾花数据集#print("鸢尾花数据集的返回值:\n", iris)

2023-02-15 17:10:32 23

原创 数据挖掘06--特征变换(二)

离散后数据好处:对于连续型特征,在离散化之后,能够降低对离群数据的影响,例如将表示年龄的特征离散化,大于50的是1,否则为0。with_mean:布尔型,默认为 True,表示在缩放前将数据居中,当尝试在稀疏矩阵上时,这不起作用(并且会引发异常),因为将它们居中需要构建一个密集矩阵,在常见的用例中,该矩阵可能太大而无法容纳在内存中;pd.qcut函数,按照数据出现频率百分比划分,比如要把数据分为四份,则四段分别是数据的0-25%,25%-50%,50%-75%,75%-100%

2023-02-15 16:50:53 32

原创 数据挖掘06--特征变换(一)

A.数值型(连续型)B.离散型B.1分类数据(categorical or nominal data)B.1.1二分类型*B.1.2多分类*B.2 顺序数据(Ordinal data)顺序型1.特征数值化(分类型特征转数值)1.1.df.replace方法 字符串替换为数值1.2.sklearn中专有模块LabelEncoder1.3.项目案例2.特征二值化2.1.np.where函数完成阈值判断和赋值2.2.利用sklearn提供二值化模

2023-02-15 15:50:17 31

原创 数据挖掘05--特征分析

它其实就是我们之前学的relplot(),catplot()以及lmplot()这几个函数的一个上层类,我们可以根据自己的需求定制每个格子中画什么样的图形,使用更加自由。绘制函数: sns.scatterplot(x=None,y=None,hue=None,style=None,size=None,data=None) x、y是有关的两个变量数据集(一位的) hue,size、style显示不同的数据集条件类别 data制定的数据集。pairplot(变量关系组图) 描述数据集中的成对关系。

2023-02-15 15:28:33 55

原创 数据挖掘04--多个数据源合并

同时支持横向合并与纵向合并pd.concat(* objs : 需要合并的对象,列表形式提供* axis = 0 : 对行还是对列方向进行合并* join = 'outer' : 对另一个轴向的索引值如何进行处理* keys = None : 为不同数据源的提供合并后的索引值# 纵向合并df21 = pd.read_excel("data/高校信息.xlsx", sheet_name = 'part1')

2023-02-15 13:43:30 77

原创 数据挖掘04--数据集成

在Pandas中,分组是指使用特定的条件将原数据划分为多个组,聚合在这里指的是,对每个分组中的数据执行某些操作,最后将计算的结果进行整合。通过groupby()方法的by参数可以指定按什么标准分组,该参数可以接收的数据主要有以下4种。如果希望保持与原数据集形状相同,那么可以通过transfrom()方法实现。

2023-02-15 13:20:27 28

原创 数据挖掘03--质量分析

fill_value自定义。[4, 5, 6],# 运行结果[[666 2 3][4 5 6][7 8 9]]fill_value为默认值Zone。[4, 5, 6],# 运行结果[[0 2 3][4 5 6][7 8 9]]

2023-02-15 11:17:52 34

原创 数据挖掘02--变量变换

df2.所在城市.replace(['北京市','上海市'],['帝都','魔都'],True) #列表值批量替换。df2.所在城市.replace({'北京市':"北平","上海市":"申城"},inplace=True)df2.所在城市.replace('北京市','帝都',inplace=True) #单个值的替换。df2["new"]=np.sqrt(df2.总分)df2.loc[70,'所在城市']="上海市01"df2['所在城市'][70]="上海市01"#该方法会直接修改原df。

2023-02-15 09:59:22 18

原创 爬虫--Xpath解析

/div[@class="song"] 即 tag[@attrName="attrValue"]//div[@class="song"]/p[3] 从1开始返回第3个标签。//text() 获取的是标签中非直系的文本内容(所有文本内容)、、1.将本地的html文档资源中源码数据加载到etree对象中。/text() 获取的是标签中直系的文本内容。// 可以表示从任意位置开始定位。2.将从互联网上获取的源码资源数据加载到对象中。/ 表示的是从根节点开始定位。引号必须与外引用的引号不同。

2022-11-17 19:42:02 15

原创 爬虫--bs4

②属性定位:soupfind('tagname',class_='song') [class_/id/attr]①select('某种选择器(id,class,标签...选择器)') 返回一个列表。soup.find_all('tagname') 返回所有符合要求的标签(列表)soup.tagname 返回的文档中第一次出现的tagname对应的标签。fp=open('文档名','r',encoding='utf-8')1.本地的html文档加载到该对象中。

2022-11-17 18:59:00 14

原创 hive--去重、ROW_NUMBER() OVER()函数

注意:ROW_Number() over (partition by id order by time DESC) 给每个id加一列按时间倒叙的rank值,取rank=1。在使用 row_number() over()函数时候,over()里头的分组以及排序的执行晚于 where 、group by、 order by 的执行。row_number() over(partition by 分组列 order by 排序列 desc)3.row_number() over()窗口函数。

2022-11-17 09:22:59 390

原创 hive--基础语句

PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] ---表的分区信息。[SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS] ---表的桶信息。[(col_name data_type [COMMENT col_comment], ...)] ----指定表的名称和表的具体列信息。

2022-11-16 15:33:57 15

原创 hive-- 数据类型

本章介绍Hive不同的数据类型,用于创建表。

2022-11-16 10:24:17 19

原创 Hive--介绍

Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上,总归为大数据,并使得查询和分析方便。

2022-11-16 10:02:52 16

原创 Hadoop介绍

Hadoop是一个用Java编写的Apache开源框架,允许使用简单的编程模型跨计算机集群分布式处理大型数据集。Hadoop框架工作的应用程序在跨计算机集群提供分布式存储和计算的环境中工作。Hadoop旨在从单个服务器扩展到数千个机器,每个都提供本地计算和存储。Hadoop是一个开源框架来存储和处理大型数据在分布式环境中。它包含两个模块,一个是MapReduce,另外一个是Hadoop分布式文件系统(HDFS)。它是一种并行编程模型在大型集群普通硬件可用于处理大型结构化,半结构化和非结构化数据。

2022-11-16 09:43:10 14

原创 爬虫--正则表达式

尝试董字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。非贪婪匹配:(.*?会匹配尽量少的字符)贪婪匹配:(.*会匹配尽量多的字符)

2022-11-16 09:33:22 15

原创 爬虫--基础

type(response) -->response属性response.status_code -->http请求的返回状态,2xx表示连接成功,3xx表示跳转,4xx客户端错误,500服务器错误。

2022-11-13 22:55:22 14

原创 Mapreduce案例--WorldCount

需求:在一堆给定的文本文件中统计输出每一个单词出现的总次数1.创建一个新的文件2.向其中放入以下内容并保存3.上传到HDFSStep2.Mapper

2022-11-03 13:46:56 18

原创 Mapreduce基础

mapreduce共有八个步骤,map阶段2个步骤,shuffle阶段4个步骤,reduce阶段分为2个步骤。用OutputFormat:TextOutputFormat类将结果存入一个普通文本文件。Reduce:1.自定义Reduce逻辑,将K2和V2转为K3和V3。将重复值组合,得出新的V2为(表示出现3次)Map:1.自定义Map逻辑,将K1和V1转为K2和V2。2.继承Mapper,重写map方法。将V2的转为3的形式。得出的V2全固定为1,忽视重复值。

2022-10-31 22:22:22 15

原创 Mysql--from_unxitime,case when,if函数

该函数表示,如果expr值等于某个vn,则返回对应位置THEN后面的结果。如果与所有值都不相等,则返回ELSE后面的rn。如果format为空默认会使用。常用在算术表达式计算和组函数中,用来对null值进行转换处理(返回值是数字或者字符串)如果表达式expr是值为FALSE,则IF()的返回值为v2。THEN后边的值与ELSE后边的值类型应一致,否则会报错。expr的值为TURE,则IF()的返回值为v1;如果V1为空,返回第二个参数 V2;如果V1不为空,直接返回V1;IF()的返回值为数字值或者。

2022-10-31 10:04:33 19

原创 Mysql--正则表达式(Regexp)

匹配name字段中第一位包含“b”和“g”范围内字母,第二位包含任何字符,第三位包含字母'a'的所有字符串数据,例: Tobias,sewall。匹配name字段包含'com'的所有数据,例:comedy ,romantic comedy。匹配name字段包含'j'或'z'的所有数据,例:Lorentz,Rajs。匹配name字段以'on'结尾的所有数据,例:norton,merton。匹配name字段包含'be'或'ae'的所有数据,例: Abel,Baer。匹配所有不包含'j'或'z'的名称。

2022-10-15 18:04:14 32

原创 Mysql--重复数据、函数

group by 列名1,列名2 having count(1) > 1。group by 列名1,列名2 having count(1) > 1。select 列名1,列名2,count(1) as count。select a.列名1,a.列名2 from (select 列名1,count(1) as count。select 列名1,列名2。group by 列名1,列名2。delete from 表名。(列名1,列名2) in (group by 列名1。

2022-10-15 16:21:51 20

原创 Mysql---基础二

如果a==null,则选择b;如果b==null,则选择c;=null,则选择a;如果a b c 都为null ,则返回为null(没意义)。连接两个以上的select 语句结果组合到一个结果中[all 所有数据/distinct 可不要,只选取不同数据]可匹配任意类型和长度的字符,有些情况下若是中文,请使用两个百分号(%%)表示。alter table 表名 add index 列名;alter table 表名 drop index 列名;匹配单个任意字符,它常用来限制表达式的字符长度语句。

2022-10-15 13:29:44 15

原创 Mysql---基础一

create table 表名 (字段名 数据类型,primary key('字段名')) engine=InnoDB default charset=utf8;修改字段默认值(本身不存在默认值) (列)修改字段默认值(本身不存在默认值) (行)create view 视图名(视图列名1,视图列名2) as select 列名1,列名2 from 表名 where 条件;alter table 表名 add 外键名 foreign key(列名) references 主表名 (列名);

2022-10-14 22:31:44 14

原创 Excel

VLOOKUP(查找对象,查找区域,返回值所在区域第几列(从1开始),查找方式【0:精确查找;MATCH(查找对象,查找区域,查找方式)--输出数值:查找对象在查找区域的位置 N/A:查找对象不存在。TEXT(单元格,"格式") eg:日期转化为2020-06-17,格式:yyyy-mm-dd。SUMIFS(球和区域,条件区域1,"条件",条件区域2,"条件2"……=IF(MOD(MID(RAND(),4,1),2),"女","男")COUNTIFS(条件区域1,"条件1",条件区域2,"条件")

2022-10-09 16:09:30 16

原创 数据挖掘02--Pandas

Numpy已经能够帮助我们处理数据,能够结合matplotlib解决部分数据展示等问题,pandas学习的目的在增强图表可读性其中Series是一维数据结构,DataFrame是 二维的表格型数据结构,Multilndex是 三维的数据结构。#检查版本升级版本。

2022-10-09 16:06:16 20

原创 数据挖掘01--Numpy

通过%time魔法方法,查看当前行的代码运行一次所花费的时间创建x行y列的二位空数组,值为0同上,值为1类似b数组组值为0的数组x行x列的对角线为1,其他全为0的方阵。

2022-10-08 17:02:54 20

原创 数据挖掘01--数据结构

把函数作用在序列元素上,但是该函数的结果必须是布尔型,filter跟据true或者false进行元素的保护和删除。因为嵌套的List保存的是地址,复制过去的时候是把地址复制过去了,嵌套的List在内存中指向的还是同一个。对于List来说,其第一层,是实现了深拷贝,但对于其内嵌套的List,仍然是浅拷贝。要注意的是如果已经有了一个列表a,同时想复制a,命名为变量b,那么。功能上看,列表与元组的区别是,列表可以被修改,二元组不可以。无论多少层,无论怎样的形式,得到的新列表都是和原来无关的。

2022-10-08 10:58:05 23

原创 日期函数(padas高级接口dt的使用)

【代码】日期函数(padas高级接口dt的使用)

2022-10-07 17:04:57 23

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除