python
l422380631
这个作者很懒,什么都没留下…
展开
-
斯坦福CS224n-lecture06- 依存分析
句法分析是自然语言处理中的关键底层技术之一,其基本任务是确定句子的句法结构或者句子中词汇之间的依存关系。句法分析分为句法结构分析(syntactic structure parsing)和依存关系分析(dependency parsing)。以获取整个句子的句法结构或者完全短语结构为目的的句法分析,被称为成分结构分析(constituent structure parsing)或者短语结构分析...原创 2019-05-21 13:57:29 · 719 阅读 · 0 评论 -
sorted函数
1.sorted函数按key值对字典排序 先来基本介绍一下sorted函数,sorted(iterable,key,reverse),sorted一共有iterable,key,reverse这三个参数。其中iterable表示可以迭代的对象,例如可以是 dict.items()、dict.keys()等,key是一个函数,用来选取参与比较的元素,reverse则是用来...转载 2019-05-15 14:00:12 · 5855 阅读 · 0 评论 -
统计学--线性回归、卡方分布、方差分析
1、线性回归在基础算法学习中已学习过,直接连接https://blog.csdn.net/l422380631/article/details/888861302、卡方分布卡方分布的基本描述: 具有k个自由度的卡方分布是一个由k个独立标准正态随机变量的和所构成的分布。卡方分布经常用于我们常见的卡方检验中。卡方检验一方面可以用来衡量观测分布和理论分布之间的拟合程度,另一...原创 2019-04-09 22:16:01 · 1465 阅读 · 0 评论 -
初级算法梳理--决策树
学习内容:1. 信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度)2.决策树的不同分类算法(ID3算法、C4.5、CART分类树)的原理及应用场景3. 回归树原理4. 决策树防止过拟合手段5. 模型评估6. sklearn参数详解,Python绘制决策树1、信息论基础1.1 熵信息的定义为,如果待分类的事务可能划分在多个分类之中,则符号的信息定义为:...原创 2019-04-03 17:55:57 · 117 阅读 · 0 评论 -
统计学--假设检验
假设检验的的基本思想是:根据所获样本,运动统计分析方法,对总体参数的某个命题所构成的假设做出拒绝或接受的判断。假设的形式 H0——原假设,H1——备择假设 双尾检验:H0:μ = μ0, 单尾检验:,H1:μ < μ0,H1:μ > μ0假设检验就是根据样本观察结果对原假设(H0)进行检验,接受H0,就否定H1;拒绝H0,就接受H1。步骤:...原创 2019-04-07 23:04:11 · 876 阅读 · 0 评论 -
初级算法梳理--逻辑回归
1、逻辑回归与线性回归的联系与区别线性回归模型产生的预测值是实值y_hat,而考虑二分类问题,输出标记y∈{0,1},可以把线性回归产生的预测值y_hat转化成0/1值,找到一个单调可微函数将分类任务的预测值y_hat转化成0和1。2、 逻辑回归的原理线性回归模型产生的预测值是实值y_hat,而考虑二分类问题,输出标记y∈{0,1},可以把线性回归产生的预测值y_hat转化成0/1值,...原创 2019-04-01 18:05:15 · 256 阅读 · 0 评论 -
统计学--中心极限定理、置信区间
1、中心极限定理对于任意分布中每次抽取n个样本,抽取无数次,计算每次n个样本的期望,样本期望频率分布图趋近正态分布,n越大越趋近正态分布。样本均值的抽样分布,来自原分布,这里求的是样本均值,与原分布同均值。2、置信区间置信区间(confidence interval):置信区间是由样本构造的对总体参数估计的一个区间,每一个置信区间会对应一个置信水平,表示真实参数落在置信区间中的概...原创 2019-04-05 23:00:44 · 1307 阅读 · 0 评论 -
统计学--基本知识
可汗学院--统计学学习内容 112-26集 统计学基本知识、二项及泊松分布学习内容 227-34集 大数定律、正态分布1、统计学基本知识1.1 描述集中趋势的统计变量均值:算术平均数,代表了这组数据的集中趋势,对这组数据有一定的代表性。中位数:集合中的数据从小到大排列,中间的数就是中位数,比中位数大和小的数一样多,一般情况,中位数与平均数很接近。众数...原创 2019-04-04 21:20:45 · 273 阅读 · 0 评论 -
初级算法梳理--线性回归
目录目录:机器学习概念 线性回归原理 线性回归损失函数、代价函数、目标函数 优化方法(梯度下降法、牛顿法、拟牛顿法等) 线性回归的评估指标 sklearn 参数详解1、机器学习概念:1.1 有监督学习个人通俗理解:训练的数据集带有标签,通过训练学习得到模型,再给模型输入未知标签的新数据集,输出新的数据集的标签。常用的简单学习算法:分类算法,回归算法术语描述:用已知某...原创 2019-03-29 17:20:21 · 355 阅读 · 0 评论 -
数据挖掘项目--模型融合
from mlxtend.classifier import StackingCVClassifier, StackingClassifiers_clf = StackingClassifier(classifiers=[linear_svc, xgb_model, lgb_model], meta_classifier=lr, u...原创 2019-03-13 17:19:29 · 525 阅读 · 0 评论 -
数据挖掘项目--调参
# LRlr_param = { 'C': [0.05, 0.1, 0.5, 1], 'penalty': ['l1', 'l2'],}lr_grid = GridSearchCV(lr, lr_param, cv=n_fold, scoring=scoring, n_jobs=-1)lr_grid.fit(X_train_std, y_train)print(lr_...原创 2019-03-11 14:00:30 · 391 阅读 · 0 评论 -
数据挖掘项目--模型评估
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_scorefrom sklearn.metrics import roc_auc_score,roc_curve, aucimport matplotlib.pyplot as plt%matplotlib inlinedef mod...原创 2019-03-11 13:57:42 · 542 阅读 · 0 评论 -
数据挖掘项目--特征选择
基于处理好的数据--data.csvdata=pd.read_csv('data.csv',encoding='gbk')y=data['status']X_cl=data.drop('status',axis=1)# 计算 IV 函数def cal_iv(x, y, n_bins=6, null_value=np.nan,): # 剔除空值 x = x[x...原创 2019-03-04 17:30:39 · 402 阅读 · 0 评论 -
数据挖掘项目--模型构建
# 数据划分from sklearn.model_selection import train_test_splitrandom_state = 1115X_train, X_test, y_train, y_test = train_test_split(X_cl, y, test_size=0.3, random_state=random_state)# 归一化from skle...原创 2019-03-07 09:53:49 · 644 阅读 · 0 评论 -
数据挖掘项目--数据处理
import pandas as pdfrom sklearn.model_selection import train_test_split# 1、导入数据df = pd.read_csv('data.csv',encoding='gbk') #utf-8格式乱码,设置为gbk才能成功导入# 2、查看数据类型print(df.dtypes) #特征太多,这种方式在pych...原创 2019-03-02 20:50:14 · 382 阅读 · 0 评论 -
斯坦福CS224n-assignment1.4
一、什么是情感分类情感分类任务就是看一段文本,然后分辨这个人是否喜欢他们在讨论的这个东西。二、如何实现简单的情况分类词向量的平均值进行预测i like orange juice比如有一个300维的词向量i [........0.5........],取平均...........juice[.......o.8....] 去平均通过平均词向量这个句子的词向量就...原创 2019-05-28 14:20:35 · 142 阅读 · 0 评论