机器学习
lcwy220
银临小姐姐的迷弟。
展开
-
随机森林模型保存-python
训练完的随机森林模型需要保存下来,目前给出python的方案。import picklewith open("model.pkl", "wb") as f:pickle.dump(model, f)# 如果需要再取出来with open("data.pkl", "rb") as f:model = pickle.load(f)据说对于sklear原创 2016-10-08 13:13:10 · 14176 阅读 · 2 评论 -
SVM-SVR
使用Python 的sklearn包来训练svm,当然也可以使用libsvm。主要想用svr做预测,我们知道svm是做分类的,同样基于svm的改进版svr也同样和可以做预测。from sklearn import svm.SVR()svr的初始化: clf=svm.SVR( C=c_value, cache_si原创 2017-01-12 10:39:46 · 1861 阅读 · 0 评论 -
Opencc简体、繁体转换
除了写代码进行简体、繁体转换外,opencc也支持命令行进行转换。opencc --help可以看到具体信息。参数: -i [file], --input=[file] 从 [file] 读取原始文本。 -o [file], --output=[file] 将转换后的文本写入 [file]. -c [file], --config=[file] 从 [f原创 2017-07-02 17:24:40 · 3643 阅读 · 0 评论 -
Kmeans缺点分析
K均值聚类是一种应用广泛的聚类技术,特别是它不依赖于任何对数据所做的假设,比如说,给定一个数据集合及对应的类数目,就可以运用K均值方法,通过最小化均方误差,来进行聚类分析。因此,K均值实际上是一个最优化问题。在一些已知的文献中论述了K均值聚类的一下一些缺点:K均值假设每个变量的分布是球形的;所有的变量具有相同的方差;类具有相同的先验概率,要求每个类拥有相同数量的观测以上任一转载 2017-07-17 22:47:47 · 4146 阅读 · 0 评论 -
CART与C4.5的区别
虽然两者都是决策树,但CART既可以做分类,又可以做回归,而C4.5只是用于分类。C4.5说到底是构造决策树来发现数据中蕴涵的分类规则,是一种通过划分特征空间逼近离散函数值的方法。C4.5是基于ID3的改进算法,使用信息增益率作为划分依据。分类规则是互斥并且完备的,所谓互斥即每一条样本记录不会同时匹配上两条分类规则,所谓完备即每条样本记录都在决策树中都能匹配上一条规则。原创 2017-08-24 14:30:49 · 4572 阅读 · 0 评论 -
Python中scipy中weibull分布的计算
scipy.stats.exponweib:scipy包中计算weibull分布的函数。密度函数的格式:exponweib.pdf(x, a, c) = a * c * (1-exp(-x**c))**(a-1) * exp(-x**c)*x**(c-1),这个形式很奇怪在官方文档说a和c是shape parameter,扩展的loc和scale参数,exponweib.p原创 2017-08-25 10:24:00 · 11930 阅读 · 1 评论 -
python csv error: line contains null byte
Python的csv包固有问题实践证明,当使用csv读取文件时,一旦文件里包含了’\0’或则’\x00’这种字符串时,会报错显示‘line contains null byte’。一部分原因是文件中本身就存在这样的字符串,另一可能原因是该csv文件是从excel文件转换而来的,那么简单的处理的方式就是重新保存成csv。如果不想该文件,就需要将这些可能的null byte抽取掉。以下代码:w...原创 2019-01-25 12:37:28 · 7187 阅读 · 1 评论