自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

平原的博客

专注人工智能100年(http://www.nlpport.com)

  • 博客(91)
  • 资源 (9)
  • 收藏
  • 关注

原创 超好用Python小功能(持续更新中)

1、把数字转为千位数值类型 str2 = '-1234567898.71' result = "{:,}".format(float(str2)) print(result)结果-1,234,567,898.712、找出字符在字符串中的位置 #找出点在字符串中所有的位置 str1 = '123.456.789.87' index = [m.st...

2020-04-09 22:32:49 1153 2

原创 pyspark 对xgboost操作记录(待续)

大数据集群安装搭建请参考这个链接,很详细。1、连接pyspark,配置xgboostimport pandas as pdfrom pyspark.sql.functions import colfrom pyspark.sql import SparkSessionfrom pyspark.ml import Pipeline,PipelineModelfrom sklearn.utils import shufflefrom pyspark.sql import functionsfro

2021-05-18 17:28:03 43

原创 Anaconda 介绍和使用

一、Anaconda安装方法安装方法网上很多,下面的链接亦可。https://blog.csdn.net/weixin_43715458/article/details/100096496二、Anaconda常用指令1、查看Anaconda下面有什么虚拟环境conda info -e2、进入某个虚拟环境osx/linux:source env_name 或 source activate env_namewindows:activate env_name3、查看虚拟

2020-11-09 09:42:48 100

转载 pip 安装module 多种服务源(避免网速慢或者单一阻碍安装)

中断的原因由于服务器不稳定或者距离太远**处理方法使用国内的资源,速度超级快,不中断列举如下:pip install -i https://pypi.douban.com/simple module # 使用豆瓣源pip install -i http://mirrors.aliyun.com/pypi/simple/ module # 阿里云pip install -i https://pypi.mirrors.ustc.edu.cn/simple/ module # 中国科技大学pip

2020-11-06 11:35:51 65

原创 git关联远程仓库操作方法

一、git关联远程仓库操作1、本地初始化空仓库git init2、添加当前目录中所有内容如到暂缓区git add .3、提交到本地仓库管理git commit -m ‘初始化项目'4、和github仓库关联(需要去github建一个分支)git remote add origin github分支地址5、提交到githubgit push -u origin master完成,可以去github验证二:其他git操作方法1、修改内容添加taggit add .git

2020-09-27 14:40:38 555

原创 ubuntu下Python gevent 报错

解决方案6.1 pip3 install --upgrade pip6.2 pip3 install greenlet6.3 pip3 install gevent

2020-09-22 17:54:30 79

原创 python 多进程跑函数

python 多进程跑函数import multiprocessingdef calculation(num): for i in range(num): a = num + 3 print(a) return aif __name__ == '__main__': lists = [i for i in range(10000000)] cores = multiprocessing.cpu_count() prin

2020-07-24 13:39:34 175

原创 实现windows 和linux环境 word转pdf功能

本文章实现不同环境,word文档转pdf文档文章目录一、linux环境1、环境安装2、测试安装是否成功:问题汇总:1、linux系统缺少中文字体导致2、禁用libreoffice屏幕显示(不一定管用)二、windows环境1、环境安装三、windows和linux集成代码一、linux环境1、环境安装去网站下载最新版libreoffice安装包https://mirrors.cloud.tencent.com/libreoffice/libreoffice/stable/以下几个版本都可以d

2020-06-10 09:40:40 650

原创 上大学前必读的书单

一、文学类二、历史类三、哲学类四、思维类五、科学类六、经济类内容来自:吴军的《谷歌方法论》在昨天写给你的来信中,向你推荐了一些美国中小学生的书单。今天把我在《硅谷来信》中列的中学生书单分享给你。 即使你不是这个年龄阶段的人,也希望它们对你能够有所启发,没有读过的书,现在拿起来读一读也无妨。 希望你可以把这份书单分享给你的学生朋友和他们的家长。一、文学...

2020-04-23 17:58:17 1849

原创 利用百度AI接口评估语句通顺度

如何判断一句话是否通顺,通顺程度如何,这里用到了百度AI的DNN语言模型接口例如:“今天成立了中华人民共和国”,对此句子分析1、获取百度的tokenclient_id:是主持百度AI后的idclient_secret:相当于秘钥获取token可以访问:https://jingyan.baidu.com/article/1612d50088bab6e20e1eee87.html# 获取百...

2020-04-23 16:55:24 2647 1

原创 python 将多个表格合并成一个表格中的多个sheet

本篇介绍,把多个excel表分别写到一个表格对应的多个sheet里面,每个表的名称就是sheet的名字import osimport pandas as pddir = './table_dir'# 获取目录下所有的表origin_file_list = os.listdir(dir)print(origin_file_list)with pd.ExcelWriter('resu...

2020-04-02 09:06:52 2529 3

转载 如何通俗地讲解 viterbi 算法?

原文链接一、通俗地讲解 viterbi 算法这篇回答你绝对看得懂!如下图,假如你从S和E之间找一条最短的路径,除了遍历完所有路径,还有什么更好的方法?答案:viterbi (维特比)算法。过程非常简单:为了找出S到E之间的最短路径,我们先从S开始从左到右一列一列地来看。首先起点是S,从S到A列的路径有三种可能:S-A1、S-A2、S-A3,如下图:我们不能武断的说S-A1、S-A2...

2020-02-07 14:59:54 290

原创 python 合并两个txt文件

合并两个txt文件合并两个文件,其实只要把文件2的内容追加到文件1中就可以了例如,现有两个文件,file1和file2:file1.txt:123456file2.txt:abcdef代码如下:file1 = 'file1.txt'file2 = 'file2.txt'def merge(file1, file2): f1 = open(file1, 'a...

2019-11-21 21:16:25 4037

转载 常见30种NLP任务的练手项目

1.分词 Word Segmentationchqiwang/convseg ,基于CNN做中文分词,提供数据和代码。2.词预测 Word PredictionKyubyong/word_prediction ,基于CNN做词预测,提供数据和代码。3. 文本蕴涵 Textual EntailmentSteven-Hewitt/Entailment-with-Tensorflow,基于Te...

2019-09-21 14:33:47 633

转载 Keras同时用多张显卡训练网络

文章目录References.0. 误区1. 目的2. 实现2.1 设计一个类2.2 调用非常简洁转自:https://www.jianshu.com/p/db0ba022936fReferences.官方文档:multi_gpu_model以及Google0. 误区目前Keras是支持了多个GPU同时训练网络,非常容易,但是靠以下这个代码是不行的。os.environ["CUDA_...

2019-05-17 10:51:07 1502

原创 面试算法简述

文章目录一、机器学习生成模式和判别模式的区别:感知机:K-means:k近邻:朴素贝叶斯:极大似然估计:逻辑回归(LR):L1和L2的区别FP(FP-growth)关联算法支持向量机(SVM):决策树:bagging随机森林:boosting梯度提升和梯度下降的区别:GBDTXGBoost:GBDT和XGBoost区别(百面机器学习):降维LDA(隐含狄利克雷分布):EM算法:动态规划图模型发展史...

2019-05-08 21:16:42 854

转载 极大似然估计详解

https://blog.csdn.net/zengxiantao1994/article/details/72787849

2019-03-19 11:03:54 180

转载 Frequent Pattern 挖掘之二(FP Growth算法)

文章目录FP树构造FP树的挖掘每一步都很详尽,推荐看FP树构造FP Growth算法利用了巧妙的数据结构,大大降低了Aproir挖掘算法的代价,他不需要不断得生成候选项目队列和不断得扫描整个数据库进行比对。为了达到这样的效果,它采用了一种简洁的数据结构,叫做frequent-pattern tree(频繁模式树)。下面就详细谈谈如何构造这个树,举例是最好的方法。请看下面这个例子:这张表描...

2019-03-08 15:51:44 259

原创 NLP基础算法总结

NLP基础算法总结一、词法分析1、分词二、句法分析三、语义分析四、文档分析五、其他nlp(Natural Language Processing) 简称:自然语言处理以下为自然语言处理用到的基础算法,包括词法分析、句法分析、语义分析、文档分析、其他一、词法分析词法分析包括分词、词性标注、实体识别、拼写检查等。1、分词分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。在英文的行...

2019-02-28 13:39:03 13560 2

原创 解决centos配置的eth0不生效问题

自己在虚拟机中配置的eth0,重启或者迁移镜像之后,静态ip不生效,查看ifconfig,结果生成了新的eth1。第一步:$ vim /etc/udev/rules.d/70-persistent-net.rules 复制里面"00:0c:29:f7:80:12"(也就是mac地址),并把eth0改成eth1。(如图)第二步:进入ip配置文件$ vim /etc/sysconfi...

2019-01-12 16:34:09 3419

原创 jupyter notebook 恢复误删单元格或者历史代码

1、先说恢复误删单元格的操作前提不要关闭notebook窗口。解决方法:先按Esc键进入命令模式,在按z键就会恢复。记住不要按Ctrl+z(这个只限没删除单元格的常规操作)命令模式和编辑模式识别:命令模式:左侧为蓝色。编辑模式:左侧为绿色,可以直接写入内容。2、恢复原来写过的代码场景:在某个窗口写了很多代码,又删除了很多单元格,想找回原来的代码。解决方法:直接在一个单元格中写入...

2018-12-03 10:45:32 14256 5

原创 fp_growth(Frequent Pattern tree)关联算法

注意:此方法笔者已经试过,计算关联词,在跑大批量数据模型的时候,很消耗内存。打个比方,如果你的数据集足够大,内存全部能吃完。具体一点,每个子列表有10个词,共500个子列表,16个G不够用的,可以想象上万条以上是什么情况。改进的方法:1、upgraded FP-growsth, UFP 算法http://www.bjutxuebao.com/bjgydx/article/2016/0254-...

2018-11-16 10:44:03 475

原创 wordcloud解决‘'list' object has no attribute 'items'’

由于fit_words需要传入字典格式,原来传入列表会报错from os import pathfrom wordcloud import WordCloudfrom matplotlib import pyplot as plt# 定义为列表会报错frequencies = [(u'知乎',5),(u'小段同学',4),(u'曲小花',3),(u'中文分词',2),(u'样例',1)...

2018-11-12 20:10:56 13310 1

原创 pandas apply应用并行进程,多核加快运行速度

前言: 在进行数据处理的时候,我们经常会用到 pandas 。但是 pandas 本身好像并没有提供多进程的机制。本文将介绍如何来自己实现 pandas (apply 函数)的多进程执行。其中,我们主要借助 joblib 库,这个库为python 提供了一个非常简洁方便的多进程实现方法。注意:本文说的都是多进程而不是多线程。功能需求:为了匹配两个datafarme中相同的部分,并把【’是否购...

2018-11-07 10:11:48 18410 3

原创 解决pandas合并某一列的文本内容

最近在做文本聚类时遇到,需要把某列的文本内容统一合并,其实很简单。上代码import pandas as pddf = pd.DataFrame({'text':['今天天气不错,适合出去玩。', '最近在上海举办了中国进口博览会,', '各国大展拳脚,', '希望国家越来越好,', '人民越来越富。']})...

2018-11-06 16:44:27 4240

原创 协同过滤之基于用户-物品矩阵推荐系统(待续)

先上图,第一个是基于物品协同过滤推荐,第二个是基于用户的协同过滤推荐 这个两个步骤差不多。先说基于物品的协同过滤,原理就是上面这张图,下面说步骤一、基于物品的协同过滤步骤: 1、根据用户对物品的评分构建用户-物品矩阵 2、创建一个n*n的物品相似度矩阵 在产品-产品协同过滤中的产品之间的相似性值是通过观察所有对两个产品之间的打分的用户来度量的 通过计算每一个i物品...

2018-10-17 15:02:16 4853 1

原创 GBDT和XGBoost区别-结论:

GBDT和XGBoost区别(百面机器学习): 1、GBDT是机器学习算法,XGBoost是该算法的工程实现 2、在使用CART作为基分类器时,XGBoost显式的加入正则项来控制模型的复杂度,有利于防止过拟合,从而提高模型的泛化能力 3、GBDT在模型训练时只使用了代价函数的一阶导数信息,XGBoost对代价函数进行二阶泰勒展开,可以同时使用一阶和二阶导数 4、传统的GBDT采用CART...

2018-09-14 18:10:04 617

原创 UserCF和ItemCF的综合比较(待续)

UserCF是推荐系统领域较为古老的算法, 1992年就已经在电子邮件的个性化推荐系统Tapestry中得到了应用, 1994年被GroupLens①用来实现新闻的个性化推荐,后来被著名的文章分享网站Digg用来给用户推荐个性化的网络文章。 ItemCF则是相对比较新的算法,在著名的电子商务网站亚马逊和DVD租赁网站Netflix中得到了广泛应用。 UserCF给用户推荐那些和他有共同兴 趣爱...

2018-09-08 17:55:19 1636

原创 偏差(bias)和方差(variance)区别:

偏差(bias)和方差(variance)区别: 偏差指的是算法的期望预测与真实预测之间的偏差程度, 反应了模型本身的 拟合能力; 方差度量了同等大小的训练集的变动导致学习性能的变化, 刻画了数据扰动 所导致的影响。 当模型越复杂时, 拟合的程度就越高, 模型的训练偏差就越小。 但此时如果 换一组数据可能模型的变化就会很大, 即模型的方差很大。 所以模型过于复 杂的时候会导致过拟合。...

2018-09-05 20:23:15 2186

转载 关于Deep learning和NLP实战应用项目

karpathy/char-rnn · GitHub :一个基于RNN的文本生成器。可以自动生成莎士比亚的剧本或者shell代码。 https://github.com/karpathy/char-rnnphunterlau/wangfeng-rnn · GitHub : 基于char-rnn的汪峰歌词生成器 https://github.com/phunterlau/wangfeng-r...

2018-08-25 16:03:58 6105

原创 深度学习之seq2seq简单介绍(待续)

Seq2Seq模型是RNN最重要的一个变种:N vs M(输入与输出序列长度不同)。这种结构又叫Encoder-Decoder模型。原始的N vs N RNN要求序列等长,然而我们遇到的大部分问题序列都是不等长的,如机器翻译中,源语言和目标语言的句子往往并没有相同的长度。为此,Encoder-Decoder结构先将输入数据编码成一个上下文向量c:、 得到c有多种方式,最简单的方法...

2018-08-23 20:11:27 735

原创 自然语言处理之word2vec原理词向量生成

链接来自:https://www.zhihu.com/question/44832436/answer/266068967前言word2vec是如何得到词向量的?这个问题比较大。从头开始讲的话,首先有了文本语料库,你需要对语料库进行预处理,这个处理流程与你的语料库种类以及个人目的有关,比如,如果是英文语料库你可能需要大小写转换检查拼写错误等操作,如果是中文日语语料库你需要增加分词处理。...

2018-08-23 19:57:19 3427 1

原创 深度学习之反向传播推导

反向传播算法(Backpropagation)是目前用来训练人工神经网络(Artificial Neural Network,ANN)的最常用且最有效的算法。其主要思想是:将训练集数据输入到ANN的输入层, 经过隐藏层, 最后达到输出层并 输出结果, 这是ANN的前向传播过程;由于ANN的输出结果与实际结果有误差, 则计算估计值与实际值之间 的误差, 并将该误差从输出层向隐藏层反向传播, ...

2018-08-16 20:34:23 1783 1

原创 机器学习之模型评估方法总结

一、分类模型评估1、混淆矩阵(confusion matrix)2、ROC3、AUC二、回归模型评估1、SSE(和方差)2、MSE(均方差)3、RMSE(均方根、标准差)4、R-Squared(确定系数)5、MAE(平均绝对误差)6、交叉验证(Cross-Validation)一、分类模型评估1、混淆矩阵(confusion matrix)...

2018-08-13 10:50:23 2693 1

原创 机器学习之GBDT算法(待续)

一、GBDT 概念二、GBDT的负梯度拟合分类回归树CART负梯度拟合三、GBDT回归算法四、GBDT分类算法1、 二元GBDT分类算法2、 多元GBDT分类算法五、 GBDT常用损失函数六、 GBDT的正则化七、 GBDT小结 一、GBDT 概念GBDT 的全称是 Gradient Boosting Decision Tree,梯度提升...

2018-08-11 16:11:12 1177

原创 机器学习之降维方法:PCA和LDA的区别

一、PCA(主成分分析)二、LDA(线性判别分析)1、二类LDA原理2、多类LDA原理3、LDA算法流程4、LDA算法小结三、 LDA 和 PCA区别一、PCA(主成分分析)PCA是一种无监督的数据降维方法降维是对数据高维度特征的一种预处理方法。降维是将高维度的数据保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的。在实际的生...

2018-08-10 20:33:20 6734 1

原创 机器学习之多种算法优缺点总结及优化方法

一、无监督算法:1、聚类算法:Kmeans2、关联规则算法:Apriori二、有监督算法1、分类算法决策树(Decision Tree)支持向量机(SVM)K近邻(kNN,k-NearestNeighbor)朴素贝叶斯逻辑回归2、回归算法线性回归多项式回归3、集成算法a、bagging(Bootstrapped Aggregation)随机森林...

2018-08-08 19:34:45 3474

原创 机器学习之随机森林(RF)详解

一、bagging算法1、简介2. bagging算法流程二、随机森林1、简介2、CART分类树的生成3、总结常用集成学习包括Bagging ,Boosting, Stacking三种。见https://blog.csdn.net/sinat_30353259/article/details/81034749 bagging算法的典型实现是随机森林(Ra...

2018-08-04 13:08:20 2606

原创 机器学习之各种熵的总结

一、什么是熵物理学上,熵 Entropy 是“混乱” 程度的量度。 系统越有序,熵值越低;系统越混乱或者分散,熵值越高 信息理论: 1、当系统的有序状态一致时,数据越集中的地方熵值越小,数据越分散的地方熵值越大。这是从信息的完整性上进行的描述。 2、当数据量一致时,系统越有序,熵值越低;系统越混乱或者分散,熵值越高。这是从信息的有序性上进行的描述。 假如事件A的分类划分是(A1,...

2018-07-21 20:58:10 897

原创 机器学习之逻辑回归

一、基本概念1、什么是逻辑回归2、逻辑回归损失函数推导3、梯度下降法求解二、对比分析1、逻辑回归的优缺点2、与线性回归的区别逻辑回归:解决分类问题一、基本概念1、什么是逻辑回归逻辑回归在某些书中也被称为对数几率回归,明明被叫做回归,却用在了分类问题上,我个人认为这是因为逻辑回归用了和回归类似的方法来解决了分类问题。 假设有一个二...

2018-07-20 20:52:41 369

iris数据集(深度学习分类)

深度学习分类,关于Tensorflow应用的数据集,内容有iris_test.csv和iris_train.csv,表头为setosa versicolor virginica

2018-08-25

rasa_nlu和rasa_core官方文档阅读笔记.pdf

自然语言处理对话构建框架,有很详尽的中文介绍,rasa的官方笔记,中文是翻译结果。。。。。。。。。。。。。。。。。。。。

2020-07-16

BERT Pre-training of Deep Bidirectional Transformers for Language Understanding

NLP领域取得最重大突破!谷歌AI团队新发布的BERT模型,在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩:全部两个衡量指标上全面超越人类,并且还在11种不同NLP测试中创出最佳成绩。毋庸置疑,BERT模型开启了NLP的新时代!

2018-10-17

scott数据库,mysql格式

Oracle自带的scott数据库,有DEPT表,EMP表,现在已转化为mysql格式

2018-05-22

NLP汉语言自然语言处理原理与实践

很好的一本书,内容有自然语言历史的发展,不同的阶段,原理和实践相结合讲述

2018-09-30

neo4j-community-3.5.14-unix.tar.gz

neo4j官网下载太慢了,附上CSDN的下载点。neo4j是图数据库,这个是社区版的,不要key,当然功能也很简单

2019-12-18

深度有趣-人工智能实战项目集合

全书包括30个项目都是深度学习,包括有资源和实现,作者下了很大功夫,强烈推荐!

2018-12-11

算法图解(高清完整版)

新手入门,通俗易懂,强烈推荐。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

2018-07-18

pagerank算法

搜索排序算法,源自于Google,主要介绍排序算法的详细过程和改进

2018-07-31

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除