- 博客(18)
- 资源 (1)
- 收藏
- 关注
原创 朴素贝叶斯的理解
1 用朴素贝叶斯来分类朴素贝叶斯对条件分布作了条件独立性的假设即贝叶斯认为各个条件之间是没有关系的,那么在分类问题中就没有考虑词与词之间的关联。那么就会丢失一部分精度...
2018-03-22 20:05:21 406
原创 keras中的函数介绍-1
1,jieba中的cut函数jieba.cut(text,cut_all=True,HMM=True) 返回的是一个生成器 ,cut_all指定是否采用更小粒度进行划分,HMM表示是否使用HMM模型jieba.lcut(text,cut_all=True,HMM=True) 返回的是list列表,参数含义同上2,pad_sequence序列补齐from keras.preprocessing.se...
2018-03-15 20:40:06 644
原创 深度学习中的函数类型
1,组合函数 在输入层之后的网络里,每个神经元的功能都是将上层产生的向量通过自身的函数生成一个标量值,这个标量值就称为下一层神经元的网络输入变量,这种在网络中间将向量映射为标量的函数就被称为组合函数。2,激活函数 大多数神经元都将一维向量的网络输入变量对一个函数映射为另外一个一维向量的数值,这个函数称为激活函数。激活函数的主要作用是为隐含层引入非线性。多个线性函数的函数仍然为一个线性函...
2018-03-15 15:41:29 465
原创 Keras快速上手-基于python的深度学习实战笔记
1,深度学习的解决对象适合解决数据量大,数据比较规范,但是决策函数高度非线性的问题2,python文件中的__all__的作用它是一个string元素组成的list变量,定义了当你使用 from <module> import * 导入某个模块的时候能导出的符号(这里代表变量,函数,类等)。3,python中的单下滑线和双下划线的区别 "单下划线" 开始的成员变量叫...
2018-03-15 13:20:46 3306
原创 python自然语言处理
1,统计词频(中文)import jiebafrom nltk import FreqDistdata = jieba.cut('字符串')#这是一个生成器dataFre = FreqDist(list(data)) #获得一个词频字典2,统计词频(英文)tokens = nltk.word_tokenize(raw)text = nltk.Text(tokens)dataFre = FreqDi...
2018-03-14 11:41:29 537
原创 python中mongodb数据库更新
1,$inc增加值db.test.update({'id':2},{'$inc':{'id':2}}) 其中后面两个双引号是必须的db.test.update({'id':6},{$inc:{id:2}}) 在mongodb交互环境中这么来写2,$set设置字段值db.test.update({'id':6},{'$set':{'id':2}})db.test.update({'id':6},{$...
2018-03-08 19:55:58 8308
原创 从mongodb数据库中导出数据
1,导出为json格式mongoexport -d 数据库名字 -c collection名字 -o /home/admin/test.json2,导出为csv格式mongoexport -d 数据库名字 -c collection名字 --csv -f url,name,age -o /home/admin/test.csv 导出url,name,age字段导出为csv格式的时候会出现中文乱码...
2018-03-05 15:38:13 2508
原创 mongodb
1,mongodb数据库进行重启/etc/init.d/mongodb restart2,mongdb数据库连接MongoClient(mongodb://root:1234@127.0.0.1/news)mongo 192.168.1.200:27017/test -u user -p password3,创建数据库用户db.createUser({user:'user',pwd:'111111...
2018-03-03 17:01:51 292
原创 关于scrapy爬取搜狐新闻网站的一点心得和体会
1,环境:本人原本使用的是win 10(CPUi5,内存8G)的环境,但自己想搭建一个分布式的爬虫,于是自己想到了虚拟机,虚拟机的环境为Ubuntu14.04,但是由于各种原因,虚拟机中的python环境(python环境要求为python3.5+)已经被我弄乱了,我在网上看到说Ubuntu16.04中有默认的python3.5+,于是果断地用了Ubuntu16.042,当环境切换为Ubuntu1...
2018-03-02 15:57:27 1797
原创 ubuntu chrome设置noproxy
当你的Google浏览器出现:When running Google Chrome under a supported desktop environment, the system proxy settings will be used. However, either your system is not supported or there was a prob...
2018-02-26 10:24:50 2201
原创 python 解释器
1,.pyc文件为python编译python产生的一个中间字节码文件,Python这么做是作为一种启动速度的优化,下次运行时,先去判断你是否修改了源文件,如果没有修改,则直接加载原来的.pyc文件,否则重新进行编译。2,python虚拟机(PVM)将字节码文件解释字节码为二进制码,并交给CPU执行。
2018-02-01 15:00:55 281
原创 python中的时间函数
时间转化为字符串import datetimenow = datetime.datetime.now()print(now.strftime('%Y-%m-%d %H:%M:%S')) 2018-02-01 12:47:19字符串转换为datetime类型str = '2018-01-05 13:30'print(datetime.datetime.strptime(st
2018-02-01 12:49:09 361
原创 python数据分析和挖掘实战
第五章:1, 常用的分类和预测算法2, 回归分析3, 主要回归模型4, 决策树算法:tip:使用dot -Tpng data.txt -o data.png 可以将生成的树用Graphivz进行可视化。(目前会出现编码问题,还没解决)5 ,人工神经网络算法:6,分类与预测算法评价6.1 绝对误差和相对误差6
2018-01-25 15:18:29 925
原创 pandas.cut函数说明
1,功能:将数据进行离散化pandas.cut(x,bins,right=True,labels=None,retbins=False,precision=3,include_lowest=False) 参数说明:x : 进行划分的一维数组 bins : 1,整数---将x划分为多少个等间距的区间 In[1]:pd.cut(np.a
2018-01-24 17:16:37 24775 2
原创 python数据分析和数据挖掘笔记
第四章1, 数据预处理的过程主要包括:数据清洗,数据集成,数据转换和数据规约。2,牛顿插值法: https://www.zhihu.com/question/22320408/answer/1419733143,数据规范化:3.1 最小最大规范化 3.2 零-均值规范化 σ 为标准差3.3 小数定标规范化K为数据绝对值最
2018-01-24 16:59:07 429
原创 python数据分析和数据挖掘笔记
前三章:1,python中的常见库:2,截断均值是去掉高低极端值之后的平均数。3,众数是指数据集中出现最频繁的值。众数并不经常用来度量定性变量的中心位置,更用于定性变量。众数不具有唯一性。4,极差=最大值-最小值5,标准差: 标准差度量数据偏离均值的程度,计算公式为:6,变异系数变异系数度量标准差相对于均值的集中趋势,计算公式为:
2018-01-23 17:09:23 900 2
原创 PHPStorm中配置phpunit
该配置是在开发实际的php项目中的:首先在Setting 中配置php的解释器:然后再配置一下phpunit的library
2017-11-07 21:31:42 2507
原创 hdu 1.3.2 排名
/*排名*/#include #includeusing namespace std;struct infor{ char name[25];//编号 int n;//做出题的个数 int bianhao[15];//做出题的编号 int goal;//得到的分数};int main(){ int N=0,M=0,G
2015-11-07 21:40:24 286
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人