![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
笔记
文章平均质量分 81
YK_Forever
这个作者很懒,什么都没留下…
展开
-
KNN&Ensemble Learning
KNN 要求三个事情:1.一组数据记录 2.计算两个记录之间的距离矩阵 3.检索的最近的K个邻居 对未知记录进行分类:1.计算到其他training record的距离 2.识别k个最近的邻居 3.用服从多数原则决定分类 决定分类两种方式: 1.服从多数 2.根据距离权衡投票weight factor, w = 1/d weight factor, w = 1-d d越小,w占比越大 k的选取:1.太小,容易过拟合,有noise point 2.太大,容易有其他类,欠拟合 属性有...原创 2021-08-11 18:29:26 · 240 阅读 · 0 评论 -
基于多层感知机的神经网络ANN
学习目标 了解人工神经网络的基本原理 通过合适的例子讨论多层感知机的运作 讨论利用反向传播bp的方法推导权值更新公式 课堂笔记 神经网络概念 神经网络(artificial neural network)是与人类大脑思考相似的算法,可用来解决监督式的分类(classification)问题和连续数预测(numeric prediction),非监督式的聚簇问题(clustering)。具体有以下几种分类: Multi Layer Perceptron (MLP) used for...原创 2021-08-09 17:00:59 · 550 阅读 · 0 评论 -
预处理2-POS Tagging
Word Classes 同一词类是指“behave”相似的词: 出现在相同的场景中 在句中执行相似的功能 经历类似的转换 9大传统词类有:Noun, verb, adjective, preposition介词, adverb, article冠词, interjection感叹词, pronoun代词, conjunction连接词 POS Tagging 定义:利用语料库中的规则对单词进行词性标记。 应用 对词性进行分类会出现以下问题: 1.同...原创 2021-07-30 22:03:18 · 576 阅读 · 0 评论 -
预处理1-Tokens and N-grams
Basic unit of language Alphabet (symbol) Word (Token) 符号 Phrase (Utterance) 表达 Discourse (Document) 论述 Collection of Discourses (Corpus) 语料 Collection of Corpus (Corpora) 语料库 Some basics on Words words约等于words:有些单词是必须连在一起才是这个意思。例如:New Ze...原创 2021-07-30 20:03:57 · 204 阅读 · 0 评论 -
贝叶斯,决策树
学习目标 掌握分类问题里最普遍算法: Naïve Bayes Nearest Neighbour Decision Trees Neural Networks(之后) 课堂笔记 朴素贝叶斯 朴素--假设条件独立,而不是独立,即。 贝叶斯即P(B)称为先验概率,是凭经验得出的概率,例如中老年得高血压的概率为x%。先验概率可以直接用来预测,但是没有把特殊情况考虑进去,例如经常运动的中老年人得高血压的概率就低,因此需要算出后验概率来进行预测。P(A|B)也是题中根据样本数...原创 2021-07-29 20:23:51 · 1321 阅读 · 0 评论 -
数据挖掘基础部分
学习目标 Knowledge Discovery 的框架 分类的评估方法 数据预处理的方法 课堂笔记 A Framework for Knowledge Discovery 概述:Data Mining是Knowledge Discovery一个更大的迭代过程的一部分。 KD的主要过程包括: 定义问题:识别你的KD项目的研究目标。 数据收集:包括数据清洗和预处理。 数据挖掘:建立适合的数据模型。 验证模型:涉及到一些统计分析(准确度计算)。...原创 2021-07-29 15:54:45 · 219 阅读 · 0 评论 -
DataMining数据预处理
读文件 import pandas as pd >>> from io import StringIO >>> csv_data = \ ... '''A,B,C,D ... 1.0,2.0,3.0,4.0 ... 5.0,6.0,,8.0 ... 10.0,11.0,12.0,''' >>> df = pd.read_csv(StringIO(csv_data)) >>> print (df) A B C D 0 1.0 2原创 2021-07-29 11:05:01 · 183 阅读 · 0 评论 -
N-gram和tag
N-gram 给段落划词。2-gram是两个为一组 # 从文件夹里读所有文件 import glob path = "text/" string='' for files in glob.glob(path +"*.txt"): infile = open(files) a = infile.readlines() for k in range (0,len(a)): newString=a[k].replace('\n',' ') string原创 2021-07-28 23:09:07 · 103 阅读 · 0 评论 -
决策树、贝叶斯编程
数据准备--训练集测试集 import pandas as pd import numpy as np import matplotlib.pyplot as plt from sklearn.model_selection import train_test_split, cross_val_score from sklearn.tree import DecisionTreeClassifier from sklearn.naive_bayes import GaussianNB, Multinom原创 2021-07-28 22:53:35 · 335 阅读 · 0 评论