自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 解决Error loading MySQLdb module. Did you install mysqlclient

解决django.core.exceptions.ImproperlyConfigured: Error loading MySQLdb module.Did you install mysqlclient?问题一、 前言:1、本人使用的Mac系统2、本人将完成好的Django项目移到到另外一个环境中遇到的问题⬇️二、问题的关键点与解决问题的过程后经过查资料,发现解决问题的关键:1、...

2019-04-10 17:12:58 17040 1

原创 07特征选择与降维

一、特征选择当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说,从两个方面考虑来选择特征:特征是否发散:如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。 特征与目标的相关性:这点比较显见,与目标相关性高的特征,应当优选选择。除方差法外,本文介绍的其他方法均从相关性考虑。 根据特征选择...

2019-03-03 14:24:42 312

原创 06词特征表示实践

读取数据import pandas as pdcorpus=list(pd.read_table('words.txt').iloc[:,0])#提取语料中的十个句子进行演示corpus=corpus[10:20]词特征表示方法Common Vectorizer usagesklearnfrom sklearn.feature_extraction.text import Coun...

2019-01-22 16:56:21 334

原创 05词向量表示理论篇

一、离散表示1、词离散表示:One-hot 表示语料库:李杏 喜欢 喝 奶茶 诗雅 也 喜欢 喝 奶茶李杏 同样 喜欢 喝 果汁 词典:{“李杏”:1,”喜欢”:2,”喝”:3,”奶茶”:4,”诗雅”:5,”也”:6,”同样”:7,”果汁”:8}One-hot 表示:李杏:[1,0,0,0,0,0,0,0] 喜欢:[0,1,0,0,0,0,0,0] … 果汁:[0,0...

2019-01-14 16:38:36 375

原创 03数据清洗与自定义函数

前言1)本节课学习正则表达式的用法,为数据清洗打下基础2)学习函数相关知识,提高代码的重用性以及可读性python知识的补充1、字符替换与正则表达式简单的字符替换str.replace()print(help(str.replace))Help on method_descriptor:replace(...) S.replace(old, new[, coun...

2018-12-29 11:21:20 358

原创 02结巴分词和打标任务代码设计

前言1)处理的数据越大,对性能的要求越高,我们需要逐步学习python代码编写的性能方面的知识2)学习程序设计,可以将一些机械化的人工操作让代码代劳python知识补充1、时间查看当前时间:datetime.datetime.now()import datetime#查看当前时间now_time = datetime.datetime.now()print(now_time)...

2018-12-24 09:07:33 1398

原创 01文本文件读取和CSV文件的读取

前言1、为了进行下一步的分词操作,我们需要读取停用词表(分词中需去除的无用词)、评论数据。2、停用词表的文件格式为txt,评论数据的文件格式为csv。我们通常使用open()函数读取txt,使用pandas库的read_csv方法读取csv文件。文本文件的输入输出文本文件的读写主要通过**open()**所构建的文件对象来实现。help(open)重点掌握参数file : 一个包含了...

2018-12-14 15:55:38 1015

原创 网络基础之网络协议篇

1、物理层2、数据链路层功能:定义了电信号的分组方式以太网协议、mac地址、广播3、网络层IP协议、子网掩码(知道”子网掩码”,我们就能判断,任意两个IP地址是否处在同一个子网络。)arp协议功能:广播的方式发送数据包,获取目标主机的mac地址4、传输层我们通过ip和mac找到了一台特定的主机,如何标识这台主机上的应用程序,答案就是端口,端口即应用程序与网卡关联的编号。tcp协议:可靠传输, ud...

2018-04-28 18:25:23 123

原创 GBDT原理

GBDT主要由三个概念组成:Regression Decistion Tree(即DT),Gradient Boosting(即GB),Shrinkage (算法的一个重要演进分枝,目前大部分源码都按该版本实现)。一、 DT:回归树 Regression Decision TreeGBDT的核心在于累加所有树的结果作为最终结果GBDT中的树都是回归树,不是分类树,这点对理解GBDT相当

2017-08-21 19:29:10 227

原创 特征选择之python实战(一)

前言:实际应用中特征作用远大于模型。声明:本文为读书笔记,原文地址:http://www.tuicool.com/articles/ieUvaq特征选择主要有两个功能:1.减少特征数量、降维,使模型泛化能力更强,减少过拟合2.增强对特征和特征值之间的理解特征选择方法总览1 去掉取值变化小的特征 Removing features with

2017-08-13 16:29:03 4915

原创 如何选择合适的机器算法解决问题

step 1:对问题进行分类            法一:            法二:  step 2:寻找可用的算法根据分类结果,寻找对应合适的算法2.1 分类      2.1.1 SVM               (1)可用于找到尽可能宽的分类的边界:当两个分类不能被清楚地分开时,该算法会找到其所能找到的最

2017-08-02 17:19:32 351

原创 学习路径之机器学习(1)

1.大概学习路径图2.数学基础2.1 微积分:知识:微积分的计算及物理意义,凸优化和条件最优化运用:梯度下降法、牛顿法等。能理解“梯度下降是用平面来逼近局部,牛顿法是用曲面逼近局部”.2.2 线性代数知识:矩阵乘法,向量的内积运算运用:矩阵乘法与分解主要运用在主成分分析(PCA)和奇异值分解(SVD)2.3 概率与统计知识:极

2017-08-02 10:17:43 256

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除