机器学习
程序员椰子橙
这个作者很懒,什么都没留下…
展开
-
daguansummary
1.参赛指导1.1 背景这个比赛是文本分类比赛,比传统的短文本(300词)分类难,现在是长文本(3000词)分类。1.2 监督学习进行分类的基本过程 (假设有一个学习模型f供你使用)原始数据(一段原始文本)→数据预处理(处理后的文本)→特征工程(Features)→输入(模型f)→输出(类别)数据预处理:表情、符号会影响后续的处理,所以去掉;特征工程:生成向量=feature;(是机器...原创 2020-03-16 14:56:04 · 122 阅读 · 0 评论 -
NLP-task2
NLP-task21. 基本文本处理技能2. 语言模型3. 文本矩阵化:要求采用词袋模型且是词级别的矩阵化1. 基本文本处理技能1.1 分词的概念(分词的正向最大、逆向最大、双向最大匹配法);正向最大匹配从左到右将待切分句子的m个字符作为匹配字符,m为初始词典中最长词条的长度。将字符与字典中元素进行匹配:若匹配成功,则将这个字符作为一个词切分出来若匹配不成功,则将这个字符的最后一...原创 2019-03-06 01:58:00 · 323 阅读 · 0 评论 -
NLP实践-task1
NLP实践-task11. 下载数据2. 对IMDB电影评论进行情感分析完善中。。。1. 下载数据 中文数据集:THUCNews THUCNews数据子集:https://pan.baidu.com/s/1hugrfRu 密码:qfud2. 对IMDB电影评论进行情感分析...原创 2019-03-03 21:57:24 · 204 阅读 · 0 评论 -
线性回归算法梳理-Task3
线性回归算法梳理-Task3回归评价指标MSE、RMSE、MAE、R-Squared波士顿房产数据回归评价指标MSE、RMSE、MAE、R-Squared波士顿房产数据波士顿房产数据(只使用房间数量这个特征)数据切分(train_test_split)MSE、MAE、RMSE、r2_score(自己写)VS scikit-learn中的MSE和MAE、r2_score...原创 2019-03-03 23:29:56 · 186 阅读 · 0 评论 -
线性回归-task4
from sklearn import preprocessingimport numpy as npx = np.array([[1., -1., 2., 3.], [2., 0., 0., -2], [0., 1., -1., 0], [1., 2., -3., 1]])print("标准化之前的方差...原创 2019-03-05 23:28:38 · 140 阅读 · 0 评论 -
使用LR和SVM对文本数据进行分类
使用LR和SVM对文本数据进行分类import numpy as npimport pandas as pdtraining = pd.read_csv("D:/ML/competition/daguan/new_data/train_set.csv")# print(training.head())## print(training.shape)# print(training....原创 2019-04-11 03:38:55 · 611 阅读 · 0 评论 -
《李宏毅机器学习》task1
1.什么是机器学习2.中心极限定理、正态分布、最大似然估计3.线性回归loss function推导4.损失函数和凸函数之间的关系原创 2019-05-13 19:20:27 · 228 阅读 · 1 评论 -
《李宏毅机器学习》task3
'''读取数据'''data = pd.read_csv('train.csv') #DataFrame类型del data['datetime']del data['item']'''整理训练集合'''ItemNum=18X_Train=[] #训练样本features集合Y_Train=[] #训练样本目标PM2.5集合for i in rang...原创 2019-05-20 20:31:35 · 148 阅读 · 0 评论 -
TensorFlow mnist数字识别
import tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_dataINPUT_NODE = 784OUTPUT_NODE = 10LAYER1_NODE = 500BATCH_SIZE = 100LEARNING_RATE_BASE = 0.8LEARNING_RATE_DECAY...原创 2019-05-24 21:47:39 · 132 阅读 · 0 评论 -
《李宏毅机器学习》-task4
1.贝叶斯公式(1)条件概率公式 设A,B是两个事件,且P(B)>0,则在事件B发生的条件下,事件A发生的条件概率(conditional probability)为: P(A|B)=P(AB)/P(B)(2)乘法公式 1.由条件概率公式得: P(AB)=P(A|B)P(B)=P(B|A)P...原创 2019-05-25 18:47:04 · 288 阅读 · 0 评论 -
svm
SVM 的学习策略就是间隔最大化,可形式化为一个求解凸二次规划的问题,也等价于正则化的合页损失函数的最小化问题。SVM 的最优化算法是求解凸二次规划的最优化算法。在高等数学中,带约束的最优化问题还可以用另一种方法求解——拉格朗日乘子法。该方法的优点一是更容易求解,而是自然引入核函数,进而推广到非线性的情况。支持向量机的分类线性可分支持向量机当训练数据线性可分时,通过硬...原创 2019-05-13 16:52:07 · 174 阅读 · 0 评论 -
《李宏毅机器学习》task2
《李宏毅机器学习》task21.偏差和方差学习误差由偏差和方差而产生过拟合,欠拟合2.鞍点,全局最优和局部最优3.梯度下降Mini-Batch与SGDBatch与Mini-Batch,SGD的区别如何根据样本大小选择哪个梯度下降写出SGD和Mini-Batch的代码4.交叉验证5.归一化6.回归模型评价指标1.偏差和方差学习误差由偏差和方差而产生偏差与方差分别是用于衡量一个模型泛化误差的...原创 2019-05-17 20:21:16 · 306 阅读 · 1 评论 -
《李宏毅机器学习》task7
import numpy as npimport pandas as pddef cancShannonEnt(dataSet): ''' :param dataSet: dataSet :return: shannonEnt ''' # 计算公式前,注意数据的格式(array) numEntries = len(dataSet) # 获取数据的行数 labe...原创 2019-06-05 21:53:37 · 132 阅读 · 0 评论 -
《李宏毅机器学习》task5
《李宏毅机器学习》task5推导LR损失函数(1)学习LR梯度下降(2)利用代码描述梯度下降(选做)(3)Softmax原理(4)softmax损失函数(5)softmax梯度下降(6)参考文献推导LR损失函数(1)假定:LR逻辑回归假设样本服从泊松0–1分布,因此p(y|x)表达式:求最大似然估计:进而求最大对数似然估计:损失函数:损失函数表征预测值与真实值之间的差异程度...原创 2019-05-29 21:16:50 · 303 阅读 · 0 评论 -
《李宏毅机器学习》task6
class LogisticRegression(object): def __init__(self, learning_rate=0.1, max_iter=100, seed=None): self.seed = seed self.lr = learning_rate self.max_iter = max_iter de...原创 2019-06-02 20:01:11 · 115 阅读 · 0 评论 -
《李宏毅机器学习》task9
正在熬夜编写中。。。使用Matplotlib注释构造注释树原创 2019-06-14 20:56:10 · 122 阅读 · 0 评论 -
《李宏毅机器学习》task8
《李宏毅机器学习》task8一、决策树的模型结构二、理解递归一、决策树的模型结构算法支持模型树结构特征选择连续值处理缺失值处理剪枝ID3分类多叉树信息增益不支持不支持不支持C4.5分类多叉树信息增益比支持支持支持CART分类/回归二叉树基尼系数,均方差支持支持支持ID3由于期望信息越小,信息增益越大,从而纯...原创 2019-06-10 08:33:22 · 215 阅读 · 0 评论 -
线性回归代码实现
单变量线性回归: h(x)=theta0 + theta1* x 1多变量线性回归: h(x)=theta0 + theta1* x 1 + theta2* x 2 + theta3* x 3多项式回归: h(x)=theta0 + theta1* x 1 + theta2* (x2^2) + theta3* (x3^3)import numpy as npfrom py...原创 2019-03-02 14:28:52 · 566 阅读 · 0 评论 -
机器学习算法梳理(五):GBDT梯度提升树
GBDTGBDTGBDT思想负梯度拟合损失函数GBDTGBDT思想负梯度拟合损失函数GBDT算法正则化优缺点及与RF的比较sklearn参数应用场景原创 2019-01-29 21:39:53 · 337 阅读 · 0 评论 -
python选取特定列——pandas的iloc和loc以及icol使用(列切片及行切片)
df是一个dataframe,列名为A B C D具体值如下:A B C D0 ss 小红 81 aa 小明 d4 f f6 ak 小紫 7 dataframe里的属性是不定的,空值默认为NA。一、选取标签为A和C的...转载 2018-04-24 15:55:51 · 8858 阅读 · 0 评论 -
pandas.get_dummies
pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False)[source]Convert categorical variable into dummy/indicator variablesParameters:data : ...转载 2018-04-24 16:12:40 · 341 阅读 · 0 评论 -
Pandas:DataFrame对象的基础操作
DataFrame对象的创建,修改,合并import pandas as pdimport numpy as np123创建DataFrame对象# 创建DataFrame对象df = pd.DataFrame([1, 2, 3, 4, 5], columns=['cols'], index=['a','b','c','d','e'])print df123 colsa 1...转载 2018-04-25 11:44:55 · 334 阅读 · 0 评论 -
一步安装 xgboost (Windows环境)
数据分析工具Xgboost神器,官网上有很详细的安装方法,但折腾了半天还是不能使用。 后来搜索到一个十分便捷的方式,只需要很简单的一步就可以搞定。特此分享。开始干活环境: Windows 32或64位都行,具体版本没有测试,windows7 及以上应该都可以, 本案例windows 7+32位预装:Microsoft Visual C++ Redistributable,要是电脑中没有安装这个环境...转载 2018-05-18 00:27:42 · 292 阅读 · 0 评论 -
windows Anaconda lightgbm 安装
下载whlhttps://pypi.python.org/pypi/lightgbm/2.0.3安装拷贝到scripts目录下; 运行pip install lightgbn-2.0.3-py2.py3-one-win_am64.whl 结果如图: 验证import lightgbm as lgb转载 2018-05-18 00:50:00 · 903 阅读 · 0 评论 -
python 寻找list中最大值、最小值位置; reshpe(-1,1)提示,格式话出错,pandas copy深拷贝浅拷贝
1:寻找list中最大值、最小值位置转载自:https://blog.csdn.net/fengjiexyb/article/details/77435676c = [-10,-5,0,5,3,10,15,-20,25]print c.index(min(c)) # 返回最小值print c.index(max(c)) # 返回最大值2:报错 Reshape your da...转载 2018-07-17 11:41:18 · 815 阅读 · 0 评论 -
1.fit_transform() 2.get_dummies 3.pd.columns 4.Python字符串格式化--format()方法
1.Python: sklearn库中数据预处理函数fit_transform()和transform()的区别 敲《Python机器学习及实践》上的code的时候,对于数据预处理中涉及到的fit_transform()函数和transform()函数之间的区别很模糊,查阅了很多资料,这里整理一下: 涉及到这两个函数的代码如下: # 从sklearn.prepr...转载 2018-07-18 15:14:45 · 981 阅读 · 0 评论 -
1.Python保存字符串到文件 2.dir()函数 3.jieba分词 4.WordCloud词云包的安装
1.记录一下Python保存字符串到文件的方法:def save_to_file(file_name, contents): fh = open(file_name, 'w') fh.write(contents) fh.close()save_to_file('mobiles.txt', 'your contents str') 2.dir()...转载 2018-07-19 16:21:01 · 300 阅读 · 0 评论 -
机器学习算法梳理(一):线性回归
线性回归梳理原创 2019-01-03 17:51:52 · 482 阅读 · 0 评论 -
机器学习算法梳理(二):逻辑回归
逻辑回归与线性回归的联系与区别逻辑回归的原理3、逻辑回归损失函数推导及优化4、 正则化与模型评估指标5、逻辑回归的优缺点6、样本不均衡问题解决办法7. sklearn参数...原创 2019-01-06 13:50:40 · 1808 阅读 · 0 评论 -
机器学习算法梳理(三):决策树
决策树梳理决策树梳理一、信息论基础二、决策树的不同分类算法三、回归树原理四、决策树防止过拟合手段五、模型评估六、sklearn参数详解,Python绘制决策树决策树梳理一、信息论基础熵是用来衡量一个系统混论程度的物理量,代表一个系统中蕴含多少信息量,信息量越大表明一个系统不确定性就越大,就存在越多的可能性。信息熵便是信息的期望值,可以记作:条件熵信息增益信息增益率基尼指数...原创 2019-01-08 22:26:25 · 208 阅读 · 0 评论 -
机器学习算法梳理(四):随机森林
RF梳理一、集成学习二、个体学习器三、Boosting&BaggingBoostingBagging四、组合策略五、随机森林思想六、优缺点七、随机森林推广八、sklearn参数一、集成学习使用一些(不同的)方法改变原始训练样本的分布,从而构建多个不同的分类器,并将这些分类器线性组合得到一个更强大的分类器,来做最后的决策。也就是常说的“三个臭皮匠顶个诸葛亮”的想法。二、个体学习器个体...原创 2019-01-22 14:36:49 · 2739 阅读 · 0 评论 -
机器学习算法梳理(六):XGB
XGB原创 2019-02-01 21:59:05 · 3622 阅读 · 0 评论