自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 资源 (1)
  • 收藏
  • 关注

原创 SV中使用隐式端口连接例化接口

SV隐式端口连接

2022-06-15 21:58:40 963 1

原创 CentOS 配置mysql 踩到的坑

遇到错误一定要看日志 !看日志! 看日志!每个人在配置的时候,碰到的问题五花八门,即使是编程老鸟也不一定能直接定位到哪里出错了,这时候一定要去看日志,日志文件地址在配置文件、etc/my.cnf 自己定义的,我的地址是 /usr/local/mysql/sql_log/ 找到其中的error,针对性的去解决!日志记录如下默认情况下,使用跳过符号链接(或等效的)来禁用符号链接。 考虑不要使用这个选项,因为它已被弃用,并将在未来的版本中被删除。‘Disabling symbolic links us

2021-08-06 22:41:08 4715 1

原创 sklearn.model_selection.StratifiedKFold

sklearn.model_selection.StratifiedKFold 是分层的K折交叉验证器>>> import numpy as np>>> from sklearn.model_selection import StratifiedKFold>>> X = np.array([[1, 2], [3, 4], [1, 2], [3, 4]])>>> y = np.array([0, 0, 1, 1])>&

2021-01-07 15:04:15 534

原创 python枚举 enumerate

python枚举 enumerate枚举是python的一个内置函数,使用它可以遍历某些内容并具有一自动计数器my_list = [‘apple’, ‘banana’, ‘grapes’, ‘pear’]for counter, value in enumerate(my_list):print counter, valueOutput:0 apple1 banana2 grapes3 pear还有更多!enumerate还接受一个可选参数,该参数允许我们指定计数器的起始索引。my_l

2021-01-07 11:41:06 320

原创 sklearn.feature_extraction.text.TfidfVectorizer

将原始文档转换为TFIDF功能矩阵,等效CountVectorizer,将文本转换为n-gram计数的稀疏矩阵,其次TfidfTransformer,从提供的计数矩阵执行TF-IDF转换。>>> from sklearn.feature_extraction.text import TfidfVectorizer>>> corpus = [... 'This is the first document.',... 'This document.

2021-01-07 09:58:58 1082

原创 sklearn.preprocessing.LabelEncoder

该类使用 0 到 n_classs-1 之间的值对目标标签进行编码。该转换器应用于编码目标值y,而不是输入XLabelEncoder 可以用来规范标签

2021-01-07 08:51:19 1423

原创 Pickle 序列化python对象,pickle.dump()以及pickle.load()

将python对象序列化为一个字节流,最常见的方法就是使用pickle模块,为了将序列化后的字节流对象保存在一个文件中,可以这样做:import pickledata = ...... # some python objectf =open('somefile','wb')pickle.dump( data, f )data对象将以字节流的操作存储在某个文件中为了将一个对象转储为一个字符串,可以使用pickle.dumps():s = pickle.dumps(d...

2021-01-06 22:04:25 3897

原创 机器学习:集成学习之 Bagging、Boosting和AdaBoost

Bagging、Boosting和AdaBoost(Adaptive Boosting)都是Ensemble learning的方法。集成学习其实就是有很多个分类器,概念就是三个臭皮匠,顶过诸葛亮。ensemble learning的基本条件是每个分类器之间要有差异,并且每个分类器的准确率需要大于0.5.如果分类器没有差异,那么用多个分类器和用一个分类器没有什么差别,如果单个分类器的准确率小于0.5那么随着集成规模的增加,准确率却在不断下降。如果单个分类器的准确率大于0.5,随着集成规模的增加,理论上准

2021-01-06 14:51:25 790

原创 Numpy的日期时间和时间增量算法 datetime64 以及 timedelta64

从NumPy 1.7开始,有些核心数组数据类型本身支持日期时间功能。数据类型称为“ datetime64”,之所以这样命名是因为Python中包含的datetime库已经采用了“ datetime”。NumPy允许将两个Datetime值相减,该操作会产生一个带有时间单位的数字。由于NumPy的核心没有物理量系统,因此创建了timedelta64数据类型以补充datetime64。timedelta64的参数是一个数字,代表单位数,一个日期/时间单位,例如(D)ay,(M)onth,(Y)ear,(h)

2021-01-05 10:18:01 3085

原创 pandas.DataFrame的 reset_index() 方法

pandas.DataFrame的 reset_index() 方法reset_index() 方法将重置DataFrame表的索引,并使用默认索引。具体是什么意思呢?看以下操作首先创建一个DF表该DF表的索引为第一列的值,对该表使用reset_index()方法后,会将旧索引添加为列,并使用新的顺序索引,效果如下:还可使用drop参数直接删除旧索引,不将其添加为该DF表的列:...

2021-01-05 09:25:55 4331

原创 python 字典的浅复制与深复制

copy()方法返回一个新字典,包含的键值对与原来的字典相同,这个方法执行的是浅复制,因为值本身是原件,而非副本如上图所示,当替换副本中的值时,原件不受影响。然而修改副本中的值,原件也将发生变化,因为这是就地修改而不是替换,原件指向的也是被修改的值。即浅复制的副本发生替换时,原件不受影响,发生修改时,原件受到影响,随之改变。解决原件随副本改变的一种方法是使用模块copy中的deepcopy函数执行深复制,深复制就是说同时同时复制值及其包含的所有值。如上图所示,原值修改后...

2020-12-16 16:32:04 650

原创 归一化

归一化归一化的任务就是统一量纲,使数据集中在一个相同的取值范围。归一化的方法有很多,最简单的归一化处理就是将各类数据除以此类中的最大值,以保证归一化后的数据在[0,1]范围内。KmeansKmeans也称K均值,是基于距离的排他划分方法,给定一个n个对象的数据集,它可以构建数据的K个划分。每个划分就是一个聚类,同时满足k <= n,且每组至少一个对象,每个对象必须属于且仅属于一个组。...

2020-12-16 16:13:16 756

原创 协同过滤

协同过滤协同过滤通过用户和产品及用户的偏好信息产生推荐策略,最基本的推荐策略有两种,一种是找到具有类似品味的人所喜欢的物品,一种是从一个人喜欢的物品中找到类似的物品。基于用户的推荐技术和基于物品的推荐技术就是协同过滤技术。...

2020-12-15 18:48:05 96

原创 conda 常用命令

activate // 切换到base环境activate learn // 切换到learn环境conda create -n learn python=3 // 创建一个名为learn的环境并指定python版本为3(的最新版本)conda env list // 列出conda管理的所有环境conda list // 列出当前环境的所有包conda install req...

2020-04-06 17:49:12 246

原创 算法入门之一 时间复杂度

算法具有五大特性:有穷性,确定性,稳定性,可行性,输入,输出(可以没输入,至少有一个输出,输出不只是输出到屏幕,完成一定功能即是输出,如传参数等等)。 “好算法的标准”:正确性 易读性(注意标识符命名规则,写注释(适当注释),命名最好见名知意) ...

2020-01-11 12:09:19 174

原创 Git入门 之 一

Git如何下载安装Git配置用户名和邮箱当前级别 local global system 大多数情况下用local但如果都有设置的话,优先级排序 local>global>system如何创建一个仓库 git init 仓库名仓库里的文件分三个层次先在工作目录修改,然后 git add filesname上传到暂存区,然后Git commit...

2020-01-10 20:17:40 126

谭松波文文本分类语料(复旦)(无需积分)

复旦谭松波的,别人辛苦整理,免费发布的东西,拿过来自己赚积分,绝了 数据说明 answer.rar为测试语料,共9833篇文档; train.rar为训练语料,共9804篇文档,分为20个类别。 训练语料和测试语料基本按照1:1的比例来划分。 数据来源 复旦大学计算机信息与技术系国际数据库中心自然语言处理小组 问题描述 适合NLP学习使用

2020-12-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除