hzp666-CSDN博客

转载 sklearn快速入门教程：（四）模型自动调参

在实际的项目中其实也有不少参数是由工程师借助其经验手动调整的，但在许多场景下这种方式仍然是很难行得通的。根据上篇教程的内容我们容易想到，调参的根本目的实际上就是要找到一组合适的超参数，使得模型具有列好的效果，而更专业的说法则是希望让模型得到更好的泛化性能（可以简单理解为样本外的预测效果）。并行计算是sklearn中的另一个亮点，它对一些能够并行的方法提前进行了封装，在使用的时候只需要简单一个参数即可。上述两个参数是与我们最直接关心的，当然还有更多的详细参数，这些内容在具体问题中对应读取查看就可以了。

2022-11-26 08:08:48 1329

转载 Reshape your data either using array.reshape(-1, 1) if your data has a single feature or array.resha

3.解决办法：如果传入的是一个一维矩阵，直接使用.reshape（1，-1）转化为二维矩阵，如果只是一个样本数据，需要先使用numpy转化为一个一维数组，再使用reshape转化为二维数组。2.原因：这是由于在新版的sklearn中，所有的数据都应该是二维矩阵。

2022-11-26 08:05:46 2576

转载 Pandas求某列字符串的长度

for和.str方法之间的性能差距过大，不在一个数量级。使用for会造成频繁的赋值操作，造成不必要内存消耗和计算时长。以上测试用例才898行，for的赋值耗时高达47秒，生产上的都是几百万行的数据，使用for那不就直接凉凉了？上面例子可以得出，使用pandas时千万不要盲目的使用for遍历，要学会使用pandas提供的内置方法。

2022-11-25 13:55:54 1372

转载 Python的jieba分词介绍

回到导航。

2022-11-25 13:17:56 308

转载 Python读取Excel文本报错：‘float‘ object has no attribute ‘decode‘

准确来说，Unicode不是编码格式，而是字符集。这个字符集包含了世界上目前所有的符号。在python中，Unicode类型是作为编码的基础类型。最近读取存储为.csv 或者Excel 格式的文件，报属性错误，参考。python3默认是。

2022-11-24 13:39:33 2436

转载 python 使用jieba.analyse提取句子级的关键字

allowPOS是允许的提取的词性，默认为allowPOS=‘ns’, ‘n’, ‘vn’, ‘v’，提取地名、名词、动名词、动词。jieba.analyse.extract_tags()提取关键字的原理是使用TF-IDF算法。文件是我一个旅游项目的数据，从中随机抽取了50行作为备选文字。withWeight 是否返回每个关键词的权重。感觉效果还是不错的，我只提取了名词和地点。，必须是str类型，不能是list。sentence 需要提取的。topK 提取前多少个关键字。

2022-11-24 10:20:31 1590

原创 Python读取CSV文件，数值精度丢失

Excel保存为csv以后，大数值的列，会把转换为科学计数法，而且后边几位都会被转为0.搞了很多方法,最后直接安装 openpyxl 组件和 pandas，读取Excel文件就行了。data = pd.read_excel("C:/work/20221111AI/cleaned_data_noTitle.xlsx")查看效果：print(data['account_number'][0]) 网上还有其他解决方法，但是试了报用。

2022-11-24 09:59:50 1380

转载 Pandas 库之 DataFrame

DataFrame是Python中Pandas库中的一种数据结构，它类似excel，是一种。或许说它可能有点像matlab的矩阵，但是matlab的矩阵只能放数值型值（当然matlab也可以用cell存放多类型数据），DataFrame的单元格可以存放数值、字符串等，这和excel表很像。同时DataFrame可以设置列名与行名，可以通过像matlab一样通过位置获取数据也可以通过列名和行名定位，具体方法在后面细说。

2022-11-23 10:05:04 1348

转载 Python列表推导式（for表达式）及用法

上面代码的第 3 行会对 a_range 执行迭代，由于 a_range 相当于包含 10 个元素，因此程序生成的 a_list 同样包含 10 个元素，且每个元素都是 a_range 中每个元素的平方（由表达式 x*x 控制）。初学者可以这样认为，它只是对 for 循环语句的格式做了一下简单的变形，并用 [] 括起来而已，只不过最大的不同之处在于，列表推导式最终会将循环过程中，计算表达式得到的一系列值组成一个列表。此格式中，[if 条件表达式] 不是必须的，可以使用，也可以省略。

2022-11-23 09:35:18 678

转载一篇关于机器学习中的稀疏矩阵的介绍

一个非常大的矩阵的例子是，因为它太大而不能存储在内存中，这是一个显示从一个网站到另一个网站的链接的链接矩阵。一个更小的稀疏矩阵的例子可能是一个单词或术语的出现矩阵，在一本书中与所有已知的英语单词对应。在下面的例子中，我们将一个3×6的稀疏矩阵定义为一个稠密数组，将它转换为CSR稀疏表示，然后通过调用todense()函数将它转换回一个稠密数组。被压缩的稀疏行，也称为CSR，通常被用来表示机器学习中的稀疏矩阵，因为它支持的是有效的访问和矩阵乘法。稀疏矩阵与大多数非零值的矩阵不同，非零值的矩阵被称为稠密矩阵。

2022-11-22 14:38:38 867

转载浅谈机器学习-回归与分类的区别

机器学习的主要任务便是聚焦于两个问题：分类和回归。本文将浅谈下两者的区别。

2022-11-22 14:01:01 1699

转载 AI中分类算法与聚类算法

然而当我们学习了许多具体算法之后再回来看，分类和聚类所实现的数据分析功能实际上是大相径庭的，他们之间不仅仅有算法上的具体差异，更重要的是，甚至他们的应用领域和所解决的具体问题都不一样。在已有数据模型的条件下，数据分类的效率往往比数据聚类的效率要高很多，因为一次只是一个对象被处理，而对于聚类结果来说，每当加入一个新的分析对象，类别结果都有可能发生改变，因此很有必要重新对所有的待分析对象进行计算处理。聚类的方法有，基于链接关系的聚类算法，基于中心度的聚类算法，基于统计分布的聚类算法以及基于密度的聚类算法等等。

2022-11-22 13:26:41 790

转载构建决策树时出现ValueError: Length of feature_names, 4 does not match number of features, 10的解决办法

用于对数据进行独热编码，注意一定要理解独热编码的具体含义，在此处非常重要，具体可以去查其他相关资料；（自己是初学者描述不够详细，具体可以去搜其他关于export_graphviz()参数的资料），而这一参数要求参数值必须与被分析的数据集中的特征名（也叫属性名）对应，数量一致且顺序一致，且不要把类标号class也写进去（因为类标号是最终分析的结果）。即可解决错误，之所以出现此错误，是因为对独热编码的方式不够了解，自己以后引以为戒，第一次写博客写的不好，希望能对遇到相同问题的朋友有所帮助。

2022-11-22 10:40:26 1286

转载阿里大数据之路：数据模型篇大总结

第1章大数据领域建模综1.1 为什么需要数据建模有结构地分类组织和存储是我们面临的一个挑战。数据模型强调从业务、数据存取和使用角度合理存储数据。数据模型方法，以便在性能、成本、效率之间取得最佳平衡成本：良好的数据模型能极大地减少不必要的数据冗余，也能实现计算结果复用，极大地降低大数据系统中的存储和计算成本。效率：良好的数据模型能极大地改善用户使用数据的体验，提高使用数据的效率。质量：良好的数据模型能改善数据统计口径的不一致性，减少数据计算错误的可能性。1.2 关系数据库系统和数据仓库。

2022-11-22 09:38:51 1047

转载字符编码OneHotEncoder

可以看到，这时候4，被编码成[0,0,0,0]，这样虽然不会报错，但是会造成一定的信息损失，因此，如果需要构建模型，之前踩坑场景：GBDT+LR复合模型，对数据落在GBDT中每颗树的叶子结点下标进行独热编码，再放入LR中构建模型；2、使用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候，其中只有一位有效。这个方法其实和OneHotEncoder差不多，但是不能训练数据，因此无法入模使用，只能用于数据分析。注意：Quantity列为数值型，并没有编码，编码的都是字符串型。

2022-11-21 10:33:08 447

转载 python写文本with open()的使用方法

①把运行结果写入到外部的文件中，只显示了一行：在with open中mode模式有误，应该是“a”而不是“w”②在写入文件时，有乱码：在with open中的“file = ”后面写上一个r，之后再引入路径。1.用途：是python用来打开本地文件的，他会在使用完毕后，自动关闭文件，无需手动书写close()a：追加内容用write() //会在已经写的内容基础上增加新的内容。w：只写用write() //会清除之前写的内容。r：只读用read()

2022-11-18 13:59:27 2602

转载 pycharm输出显示不完整与省略号解决措施

数据显示不全解决措施：打开Help-Edit Custom Properties输入以下代码： 1 2 320000代表20000KB,可自行调整最后重启运行，成功解决最后的结果：原本的效果如下：解决方法：插入以下代码：设置pandas的参数（最大列数，行宽，最大列宽）来展示完整信息 1 2 3运行的代码效果：成功解决感谢大佬的分享：参考连接：https://blog.csdn.net/qq_36303970/article/details/87544790

2022-11-16 15:43:13 6322 3

转载 train_test_split--切分训练和测试数据的方法参数介绍

用了stratify参数，training集和testing集的类的比例是 A：B= 4：1，等同于split前的比例（80：20）。===========================参数如下===============================②若不为None时，划分出来的测试集或训练集中，其类标签的比例同输入的数组中类标签的比例相同，可以用于处理不均衡的数据集。①若为None时，划分出来的测试集或训练集中，其类标签的比例也是随机的。①若为None时，每次生成的数据都是随机，可能不一样。

2022-11-16 13:30:54 2505

转载 sklearn.tree.DecisionTreeClassifier 决策树-参数详解

如果特征不多，可以不考虑这个值，但是如果特征多，可以加限制，具体的值可以通过交叉验证得到。2、如果样本数量少但是样本特征非常多，在拟合决策树模型前，推荐先做维度规约，比如主成分分析（PCA），特征选择（Losso）或者独立成分分析（ICA）。限制决策树的增长，节点的不纯度（基尼系数，信息增益，均方差，绝对差）必须大于这个阈值，否则该节点不再生成子节点。3、推荐多用决策树的可视化，同时先限制决策树的深度（比如最多3层），这样可以先观察下生成的决策树里数据的初步拟合情况，然后再决定是否要增加深度。

2022-11-15 14:20:36 8075

转载 datax-web使用介绍

CONSISTENT_HASH（一致性HASH）：每个任务按照Hash算法固定选择某一台机器，且所有任务均匀散列在不同机器上。FAILOVER（故障转移）：按照顺序依次进行心跳检测，第一个心跳检测成功的机器选定为目标执行器并发起调度；BUSYOVER（忙碌转移）：按照顺序依次进行空闲检测，第一个空闲检测成功的机器选定为目标执行器并发起调度；LEAST_RECENTLY_USED（最近最久未使用）：最久为使用的机器优先被选举；FIRST（第一个）：固定选择第一个机器；ROUND（轮询）：；

2022-10-24 11:11:28 2761

转载 crontab定时表达式

表示每2秒执行任务（数值不能超过60，如超过好像会按最大上限执行每60秒执行一次，即最多每60秒执行一次，错误表达0/120 * * * *?，并不会每120秒，执行一次，如需要请转化为分钟，数值不能超过60，因为60秒的话，就可以转化成1分钟了，所以它最大就只能是60）表示每2小时执行任务（数值不能超过24，因为24小时的话，就可以转化成一天了，所以它最大只能是24）表示每2分钟（数值不能超过60，因为60分钟的话，就可以转化成小时了，所以它最大就只能是60）这里稍微解释几下这个地方。

2022-10-20 10:03:31 2125

原创 datax-web安装部署

部署完成之后，在modules/对应的项目/data/applogs下(用户也可以自己指定日志，修改application.yml 中的logpath地址即可)，用户可以根据此日志跟踪项目实际启动情况。如果项目启动失败，请检查启动日志：modules/datax-admin/bin/console.out或者modules/datax-executor/bin/console.out。进入解压后的目录，找到bin目录下面的install.sh文件，如果选择交互式的安装，则直接执行。

2022-10-19 14:28:44 958 2

转载 DataX Web增量配置说明

打开菜单任务管理页面，选择添加任务按下图中5个步骤进行配置注意，注意，注意: 配置一定要仔细看文档（后面我们也会对这块配置进行优化，避免大家犯错）

2022-10-18 13:19:43 3297

原创 postgres常用SQL

- 查询各个库下表的大小。--查询库下边各表的大小。--查询库下边有哪些表。

2022-10-17 15:21:53 121

原创 linux安装dataX

该文章介绍安装dataX，以及Oracle 到 pg 库，遇到的一些坑。

2022-10-16 18:49:21 3127

转载 Oracle运维常用语句

每张表都是作为“段”来存储的，可以通过user_segments视图查看其相应信息。段（segments）的定义：如果创建一个堆组织表，则该表就是一个段。

2022-10-12 13:29:39 237

转载 ORACLE常用性能监控SQL【二】

Shared pool执行存放sql的解析结果，sql执行的时候只是去share pool中找hash value，如果有匹配的就是软解析。对应的sql语句必须一模一样，如果alter system flush shared_pool（主站慎用）后再执行一样的语句，发现语句在V$SQL中的SQL_ID和HASH_VALUE与之前的一样，说明SQL_ID和HASH_VALUE应该是oracle自己的一套算法来的，只是根据sql语句内容来进行转换，sql语句不变则SQL_ID和HASH_VALUE也不变。

2022-10-12 10:30:01 2064

转载 ORACLE常用性能监控SQL【一】

注意：应当注意对于 sid 在 100 以下的应当谨慎，可能该进程对应某个application，如对应某个事务,可以 kill。将路径（user_dump_dest）和文件名结合在一起，我们就得到了trace文件的完整路径。谁在等待 - 最后10 个等待数–查询V$SESSION_WAIT_HISTORY。类的系统等待数–查询V$ACTIVE_SESSION_HISTORY。类的所有会话等待数–查询V$SESSION_WAIT_CLASS。会话开始后的所有等待数–查询 V$SESSION_EVENT。

2022-10-12 10:14:27 1412

原创 Flink学习25:窗口计算函数

重写3个方法：createAccumulator（生成累加器）、 add（编辑累加逻辑）、getResult（编辑输出结果）、merge（编辑累加器合并逻辑）

2022-09-20 11:15:22 759

转载 AI 缘起

根据《艾伦·图灵传》中的介绍，图灵设想了一种游戏：房间中有一男一女，房间外的人向房间内的男女提问，里面的两个人只能以写字的方式回答问题，然后请房间外的人猜测，哪一位回答者是女人。达特茅斯研讨会进行了两个月，其中，纽厄尔和西蒙公布的程序“逻辑理论家”（Logic Theorist）引起参会者极大的兴趣，这个程序模拟人证明符号逻辑定理的思维活动，并成功证明了《数学原理》第2章52个定理中的38个定理，被认为是用计算机探讨人类智力活动的第一个真正成果，也是图灵关于机器可以具有智能这一论断的第一个实际证明。

2022-09-19 16:21:26 181

原创 Flink学习24:窗口的分配器

处理时间事件时间滚动窗口方法一：.sum(1)第二步第1步：第2步：.sum(1)滑动窗口。

2022-09-05 16:03:29 580

转载 Flink学习24.1：事件时间处理和水印

在 Flink 的流式处理中，会涉及到时间的不同概念，如下图所示Event Time：是事件创建的时间。它通常由事件中的描述，例如采集的日志数据中，每一条日志都会记录自己的生成时间，Flink 通过时间戳分配器访问事件时间戳。Ingestion Time：是数据进入 Flink 的时间。Time：是每一个执行基于时间操作的算子的本地系统时间，与机器相关，默认的时间属性就是 Processing Time。

2022-09-02 14:02:48 682

原创 Flink23:窗口计算程序的结构

窗口操作是flink程序的核心。通过窗口将无限的数据流切分成有限的窗口操作。

2022-08-31 10:35:03 554

原创 Flink学习22：窗口的划分

主要有2种窗口，一个基于时间窗口，一个是基于数据窗口。时间窗口中起止时间是，左闭右开。

2022-08-31 09:39:26 888

原创 Flink学习21：数据输出sink

/sink}}//sink}}

2022-08-16 11:01:24 431

原创 Flink学习20：聚合算子(sum,max,min)

常见的聚合算子 sum,max,min等聚合算子可以在在keyedStream 流上进行滚动的聚合（即累计的操作），而且同一个 keyedStream 流上只能调用一次聚合算子。

2022-08-12 09:48:46 3181 1

原创 Flink学习20：算子介绍reduce

1.继承 ReduceFunction 类2.重写reduce 方法。

2022-08-10 16:56:08 698

原创 Flink学习19：算子介绍keyBy

主要作用：把相同的数据，汇总到相同的分区中。

2022-08-10 16:13:14 4088

原创 Flink学习18：算子介绍filter

}

2022-08-10 15:11:28 520

原创 Flink学习17：算子介绍flatMap

1.将数据切分2.拍扁示例：输出结果：import org.apache.flink.api.scala.createTypeInformationimport org.apache.flink.streaming.api.scala.StreamExecutionEnvironmentobject flatMapTest { def main(args: Array[String]): Unit = { //create env val env = StreamEx

2022-08-10 14:45:08 2917