机器学习
880露露088
IDEA sde,Microsoft China, SDE, Cloud Computing.
展开
-
My first Colab notebook - Tensorflow
MyFirstColabNotebookMachine Learning Crash CourseNumPy 从已有的数组创建数组 | 菜鸟教程原创 2021-12-17 03:42:10 · 596 阅读 · 0 评论 -
ML学习概图
原创 2020-02-27 21:12:26 · 147 阅读 · 0 评论 -
GraphViz's executables not found异常
原因:缺少graphviz软件。解决方法:1.下载zip解压:https://graphviz.gitlab.io/_pages/Download/Download_windows.html2.添加bin目录到环境变量3.重启IDE原创 2018-03-25 19:21:52 · 1717 阅读 · 0 评论 -
向Django发送http请求过程中调用机器学习模型报错
1.相对路径和绝对路径的问题问题:model=joblib.load('LogisticRegressionModel.pkl')不能正确运行解决方案:使用绝对路径访问就行了。原创 2018-03-06 00:20:15 · 1092 阅读 · 0 评论 -
机器学习基本概念
1.训练误差(training error)或经验误差(empirical error):训练集上的误差。2.泛化误差(generalization error):测试集上的误差3.模型泛化性能评估方法 留出法(hold-out) K折交叉验证法(cross validation) 自助采样法(bootstrapping)4.模型性能度量 错误率、准确率 查准率(pr...原创 2018-02-19 21:23:56 · 173 阅读 · 0 评论 -
bagging 和 random forest
转自http://blog.csdn.net/xlinsist/article/details/51475345引言在这篇文章中,我会详细地介绍Bagging、随机森林和AdaBoost算法的实现,并比较它们之间的优缺点,并用scikit-learn分别实现了这3种算法来拟合Wine数据集。全篇文章伴随着实例,由浅入深,看过这篇文章以后,相信大家一定对ensemble的这些方法有了很清晰地了解。B...转载 2018-02-18 20:20:05 · 636 阅读 · 0 评论 -
分类中的类别不平衡问题
1.怎样算类别不平衡?不知道谁说:相差一点没多大影响,训练集和测试集相差超过4:1时。我的实验结果:相差一点有一点影响。原创 2018-03-06 21:05:34 · 829 阅读 · 0 评论 -
算法
1.k-近邻算法(kNN):选择k(k优点:精度高、对异常值不敏感、无数据输入假定。缺点:计算复杂度高、空间复杂度高。适用数据范围:数值型和标称型。2.逻辑回归3.决策树 :重点在于选择哪一个属性作为分裂属性。优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。缺点:可能会产生过度匹配问题。适用数据类型:数值型和标称型。分裂原创 2017-12-11 22:19:48 · 222 阅读 · 0 评论 -
模型保存和加载
from sklearn.externals import joblibjoblib.dump(gnb, 'filename.pkl')clf = joblib.load('filename.pkl')原创 2018-01-04 22:26:55 · 325 阅读 · 0 评论 -
机器学习的分类任务中错误提示以及解决方案
1.UndefinedMetricWarning: Precision and F-score are ill-defined and being set to 0.0 in labels with no predicted samples.在预测数据中存在实际类别没有的标签时报此warning原创 2018-01-04 15:56:27 · 10348 阅读 · 2 评论 -
python用sklearn分类版本和代码拼写问题
转自http://blog.sina.com.cn/s/blog_17b9e19320102x2w0.html1.DecisionTree中,最后的预测:predictedY = clf.predict(oneRowX),运行时会出现报错:上面提示说需要2维array,但是得到的是1维array于是把predict一行改一下:predictedY转载 2018-01-04 10:26:05 · 1262 阅读 · 0 评论 -
pip install pandas 超时报错
pip --default-timeout=1000 install pandas原创 2018-01-03 22:21:17 · 4633 阅读 · 1 评论 -
numpy
1.用途数组的算数和逻辑运算。傅立叶变换和用于图形操作的例程。与线性代数有关的操作。 NumPy 拥有线性代数和随机数生成的内置函数。2.示例import numpy as np student = np.dtype([('name','S20'), ('age', 'i1'), ('marks', 'f4')]) a = np.array([原创 2018-01-02 16:45:12 · 244 阅读 · 0 评论 -
用weka打开UCI数据集
1.打开网页,ctrl+s,保存格式为所有格式。2.用Excel打开,分隔符选逗号或者空格。在第一行添加一行,给每列取个属性名称后,保存为CSV格式文件。3.用weka打开CSV文件。原创 2017-12-07 14:58:50 · 3437 阅读 · 0 评论 -
粗糙集
对于集合A={a1,a2,a3,a4}Color={red,blue}Size={big,small}A/Color={{a1,a2},{a3.a4}}A/Size={{a1},{a2,a3,a4}}1.知识:对一个集合的划分。知识库:集合的子集,按某种划分出来的子集+这些子集的交并。2.对某个集合来说下近似集:R(X)=maxU{Y∈U/R,Y⊆X}上原创 2017-12-06 14:43:03 · 1217 阅读 · 0 评论 -
决策树理论
决策树(理论篇) 定义 由一个决策图和可能的结果(包括资源成本和风险组成),用来创建到达目的的规划。——维基百科通俗理解 给定一个输入值,从树节点不断往下走,直至走到叶节点,这个叶节点就是对输入值的一个预测或者分类。算法分类ID3(Iterative Dichotomiser 3,迭代二叉树3代)历史转载 2017-12-12 18:14:52 · 1261 阅读 · 0 评论