机器学习
文章平均质量分 58
辞树 LingTree
这个作者很懒,什么都没留下…
展开
-
CICFlowMeter解析pcap文件
1. 安装WinPcap2. 下载CICFlowMeter3. 解压文件打开bin目录下/bin/CICFlowMeter.bat,选择离线模式出现如下界面点击ok ,示例:在文件夹对应位置,查看到输出的csv文件原创 2022-04-28 10:00:46 · 955 阅读 · 6 评论 -
K-means聚类算法
K-means聚类算法K-means聚类步骤1、随机设置K个特征空间内的点作为初始的聚类中心2、对于其他每个点计算到K个中心的距离,未知的点选择最近的一个聚类中心点作为标记类别3、接着对着标记的聚类中心之后,重新计算出每个聚类的新中心点(平均值)4、如果计算得出的新中心点与原中心点一样,那么结束,否则重新进行第二步过程APIsklearn.cluster.KMeans(n_clusters=8, init='k-means++') k-means聚类 n_clust原创 2022-03-28 22:41:55 · 1498 阅读 · 0 评论 -
逻辑回归算法
逻辑回归 分类算法逻辑回归核心思想利用现有数据对分类边界建立回归方程,以此进行分类。优点: (1)训练速度较快,分类的时候,计算量仅仅只和特征的数目相关; (2)简单易理解,模型的可解释性非常好,从特征的权重可以看到不同的特征对最后结果的影响; (3)适合二分类问题,不需要缩放输入特征; (4)内存资源占用小,因为只需要存储各个维度的特征值;缺点: (1)不能用Logistic回归去解决非线性问题,因为Logistic的决策面试线性的; (2)...原创 2022-03-27 20:32:00 · 361 阅读 · 0 评论 -
线性回归——波士顿放假预测
线性回归线性回归核心思想:利用最小二乘函数对一个或多个自变量之间关系进行建模的方法,预测回归问题。优点: (1)思想简单,实现容易。建模迅速,对于小数据量、简单的关系很有效; (2)是许多强大的非线性模型的基础。 (3)线性回归模型十分容易理解,结果具有很好的可解释性,有利于决策分析。 (4)蕴含机器学习中的很多重要思想。 (5)能解决回归问题。缺点: (1)对于非线性数据或者数据特征间具有相关性多项式回归难以建模. (2)难以很好地表达高...原创 2022-03-24 22:59:48 · 507 阅读 · 0 评论 -
集成学习方法之随机森林
随机森林算法集成学习集成学习通过建立几个模型组合来解决单一预测问题。它的工作原理是生成多个分类器/模型,各自独立地学习和做出预测。这些预测最后结合成组合预测,因此优于任何一个单分类的做出预测。随机森林算法核心思想机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。随机 + 森林(包含多个决策树的分类器)N个样本,每个样本有M个特征。随机 两个随机 训练集随机 - N个样本中随机有放回的抽样N个原创 2022-03-21 21:37:16 · 3755 阅读 · 0 评论 -
决策树算法
决策树算法决策树核心思想:决策树(decision tree)是一个树结构(可以是二叉树或非二叉树)。其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果。优点:理解和解释简单可视化 - 可解释能力强缺点:容易产生过拟合改进:剪枝cart算法(决策树API中已实现,原创 2022-03-21 20:44:35 · 4121 阅读 · 0 评论 -
朴素贝叶斯
朴素贝叶斯核心思想:朴素(特征之间相互独立) + 贝叶斯算法优点:1. 对缺失数据不太敏感,算法也比较简单,常用于文本分类。2. 分类准确度高,速度快。3. 朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。缺点:由于使用了样本属性独立性的假设,所以如果特征属性有关联时其效果不好。使用场景:文本分类、垃圾文本过滤、情感判别、多分类实施预测、推荐系统scikit-learn中的3种不同类型的朴素贝叶斯1. 高斯分布型 GaussianNB原创 2022-03-21 16:14:21 · 2825 阅读 · 0 评论 -
K-近邻算法(KNN)
KNN核心思想: 你的"邻居"来推断出你的类别如果取的最近的电影数量不一样?会是什么结果? k 值取得过小,容易受到异常点的影响 k 值取得过大,样本不均衡的影响APIsklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm='auto') n_neighbors:k值 algorithm:{'auto', 'ball_...原创 2022-03-19 15:35:30 · 1390 阅读 · 0 评论 -
特征工程笔记
特征工程:特征工程的目的,是通过一系列的工程活动,将这些信息使用更高效的编码方式(特征)表示。使用特征表示的信息,信息损失较少,原始数据中包含的规律依然保留。此外,新的编码方式还需要尽量减少原始数据中的不确定因素(白噪声、异常数据、数据缺失…等等)的影响。1. 特征提取sklearn.feature_extractionfrom sklearn.feature_extraction import***1. 1 字典特征提取字典特征提取 - 类别 -> one-hot编原创 2022-03-17 16:05:08 · 1187 阅读 · 0 评论