- 博客(7)
- 资源 (9)
- 收藏
- 关注
原创 【kaggle】Titanic
数据集:train.csv https://www.kaggle.com/c/titanicGetting Started With Python:# -*-coding:utf-8-*-####################### by kevinelstri# 数据集:train.csv# Getting Started With Python###################
2016-12-30 15:47:41 802
原创 【kaggle】Celebrity Death
数据集:celebrity_deaths_2016.csv https://www.kaggle.com/hugodarwood/celebrity-deaths读取数据集:# -*-coding:utf-8-*-import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom matplotlib.gridsp
2016-12-30 15:05:33 603
原创 【机器学习理论】第3部分 聚类分析
1、概述聚类分析可以应用到多个领域中,在生物学中,聚类可以辅助动植物分类的研究,可以通过对基因数据的聚类,找出功能相似的基因;在地理信息系统中,聚类可以找出具有相抵用途的区域,辅助石油开采;在商业上,聚类可以帮助市场分析人员对消费者的消费记录进行分析,从而得出消费者的消费模式,实现消费群体的区分。聚类就是将数据对象分组成多个类簇,划分的原则就是使得同一个簇内的对象之间具有较高的相似度,而不同簇之间对
2016-12-24 14:17:03 6076
原创 【机器学习理论】第2部分 相关性度量
不管是在机器学习算法中,还是数据挖掘算法中,相似性的度量都是一个非常重要的概念。 在聚类算法中,利用样本之间的相似度进行将样本进行划分成不同的类别; 在搜索引擎中,当输入关键词时,是利用关键词与网络信息之间的相似度来产生结果的,使得搜索引擎产生的信息能够符合用户的需要; 在推荐系统中,同样是利用相似性来为用户推荐可能需要的信息,满足用户的需求。相似度距离计算可以分为很多种,下面进行详细的描述:
2016-12-15 14:33:18 4038
原创 【机器学习理论】第1部分 机器学习基础
对于机器学习算法也使用了一段时间,现在进行一个系统的学习和总结,也给自己补缺补差,回头来看,发现对于机器学习的理解更加的清晰,更加有条理,在整体的思路上的把握也更加的完善,所以建议对于机器学习的学习一定要多实践,多回头查看、【分类介绍】监督学习:在监督学习中,我们只需要给定输入样本集,机器就可以从中推测出指定目标变量的可能结果。监督学习使用两种类型的目标变量:标称型和数值型。标称型:其目标变量的结
2016-12-15 10:08:10 2548
原创 局域网
局域网范围:1米~2000米之间城域网范围:2000米~5000米广域网范围:最大可覆盖全球1、局域网特性局域网是一种高速数据网络,网络的覆盖地域范围相对较小。局域网的关键特征就是它们只能覆盖有限的范围。局域网主要服务于单个部门、楼宇、车间或校园内彼此距离较近的多个楼宇,局域网甚至可以扩展到几公里范围,但通常需要一种称为中继器(repeater)的特殊设备来再生信号。不同类型的网络电缆都有传输数据
2016-12-07 16:07:12 1089
原创 【机器学习】第4部分 关联分析
1、关联分析的基本概念关联分析(association analysis):从大规模数据集中寻找物品间的隐含关系。项集(itemset):包含0个或者多个项的集合称为项集。频繁项集:那些经常一起出现的物品集合支持度计数(support count):一个项集出现的次数也就是整个交易数据集中包含该项集的事物数关联规则是形如A->B的表达式,规则A->B的度量包括支持度和置信度项集支持度:一个项集出现
2016-12-06 15:13:38 17017 3
ourbestModel_highscore3500
2019-04-14
停用词表stopwords
2017-08-15
文本分析--停用词集合(结合哈工大停用词表、四川大学机器智能实验室停用词库、百度停用词表等)
2017-04-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人