机器学习
文章平均质量分 83
bymaymay
不念过去,不惧未来!
展开
-
集成学习(Ensemble Learning)-bagging-boosting-stacking
Ensemble Learning Bagging Boosting Stacking基本概念集成学习的条件集成学习的种类如何构建具有差异性的基分类器Bagging Bootstrap Aggregating 引导聚合BoostingStacking Stacked generalization算法的对比集成学习的结合策略如何对基分类器的结果进行整合Ensemble Learning...原创 2017-09-03 19:05:40 · 10494 阅读 · 0 评论 -
机器学习实战2-运行KNN示例
环境配置代码存放地方为: C:\PyCode\ML\knn\Ch02查看当前Python版本 切换Anaconda的编译环境,激活Python2 查看当前Python编译环境 进入Python编译环境 导入数据导入knn模块(也就是knn.py文件),导入数据 使用Matplotlib画图导入matplotlib包时显示不存在,quit()退出当前Python环境,在anaconda中安原创 2017-10-25 11:16:44 · 711 阅读 · 0 评论 -
机器学习实战1:K近邻算法(KNN)
转载请附上:原文链接KNN(K Nearest Neighbors)算法,也叫K最近邻算法。主要思想是,每个样本都可以由它最近的k个邻居来代表。 例如,村里投票建水井,有三个选址A, B和C,所有的人家都投了票,除了李四家。村书记决定找出距李四家最近的6户人家,发现3户投了B,2户投了A,1户投了C。于是村书记决定给李四家的投票结果标记为B。 问题的一般化:有n个已标记样本,{(x1,y1),⋯原创 2017-08-21 20:02:00 · 714 阅读 · 0 评论 -
coursera machine learning summary
main topicsSupervised LearningLinear regression, logistic regression, neural networks, SVMsUnsupervised LearningK-means, PCA, Anomaly detectionSpecial applications/topicsRecommend...原创 2018-05-29 12:49:26 · 272 阅读 · 0 评论 -
nltk-提取词干-去除停用词
from nltk.corpus import stopwords Here is the list: set(stopwords.words(‘english’)) {‘ourselves’, ‘hers’, ‘between’, ‘yourself’, ‘but’, ‘again’, ‘there’, ‘about’, ‘once’, ‘duri...原创 2018-07-30 11:18:37 · 12377 阅读 · 1 评论 -
信息熵、联合熵、条件熵、互信息
一个随机事件xxx的自信息量1定义为:I(x)=log1p(x)I(x)=\log\frac{1}{p(x)}I(x)=logp(x)1注意,在信息论中,log\loglog函数的底通常设置为2,此时,自信息量的单位为比特(bit);在机器学习中,log\loglog函数的底通常设置为自然常数e,此时,自信息量的单位为奈特(nat)。需要从以下两方面来理解自信息量:举例说明,“中彩票”事件的概率极小,但是一旦中了彩票,“中彩票”事件的自信息量很大,也就是说,“中彩票”会获得极大的信息量(即收益)。原创 2018-12-18 03:24:17 · 18352 阅读 · 3 评论 -
sklearn-CountVectorizer
CountVectorizer会将文本中的词语转换为词频矩阵,它通过fit_transform函数计算各个词语出现的次数。from sklearn.feature_extraction.text import CountVectorizertexts=["dog cat fish","dog cat cat","fish bird", 'bird'] # “dog cat fish” 为输入...转载 2019-04-04 01:54:21 · 391 阅读 · 0 评论