文本挖掘
Not丶Perfect
一个即将成为技术大牛的技术小白
展开
-
基于词向量和卷积神经网络的文本相似度计算
基于CNN和词向量的文本相似度分析1. 前言众所周知,现在的时代就是海量数据暴增的时代,每天的各种聊天工具和数以亿计的网页产生了海量的人工无法高效处理的各种文字信息。由此而生,我们自然想到通过分类来减少信息检索,分类的依据就是文本之间的相似度,同时人们希望电脑能帮助人们来实现这一难题,从而各种基于语句格式和语义统计的语言表示方法诞生了。在这样一个大环境下,人们接触文本数据也越来越多,而在中文...转载 2019-01-10 16:24:08 · 9865 阅读 · 0 评论 -
keras画出构建的模型
keras画出构建的模型1、安装画图模块conda install pydot2、画图代码from keras.utils import plot_modelplot_model(model,to_file="model.png",show_shapes=True)如下图所示原创 2019-03-01 22:20:10 · 2002 阅读 · 1 评论 -
NLP 相关的应用
NLP 相关的应用领域强调应用驱动或者需求驱动,要与实际相结合,解决现实中存在的问题或解放人力,节省物力。目前较好的应用领域一类是指令式的,比如智能家居,你下达指令,让它开灯关灯;车载环境下也是指令类。车载环境真的不方便用手了,智能用嘴去下达指令,你可能会说,给我老妈拨个电话,或是把刚刚收到的微信信息读一下。另一类是QA 类的,基本应用在客服上。这一块最近用得非常多。大企业会自己做客...转载 2019-01-22 10:55:24 · 1852 阅读 · 0 评论 -
Keras构建CNN讲解及代码
Keras构建CNN摘要:keras能够极其简单的构造出CNN网络使用TensorFlow创建卷积神经网络(CNN)来对MNIST手写数字数据集进行分类的方法很经典。TensorFlow是一款精湛的工具,具有强大的功能和灵活性。然而,对于快速原型制作工作,可能显得有些麻烦。Keras是一个运行在TensorFlow或者Theano的更高级别的库,旨在流线化构建深度学习网络的过程。事实上,在Te...翻译 2019-01-10 09:54:07 · 15453 阅读 · 7 评论 -
python对文件的读写
python对文件的读写(持续更新中)1、读写txt文件2、读写excel文件3、读写图片4、读写原创 2019-01-09 15:17:02 · 1727 阅读 · 0 评论 -
keras上实现AutoEncoder自编码器
keras上实现AutoEncoder自编码器一、自编码器简介无监督特征学习(Unsupervised Feature Learning)是一种仿人脑的对特征逐层抽象提取的过程,学习过程中有两点:一是无监督学习,即对训练数据不需要进行标签化标注,这种学习是对数据内容的组织形式的学习,提取的是频繁出现的特征;二是逐层抽象,特征是需要不断抽象的。自编码器(AutoEncoder),即可以使用自身...转载 2019-01-08 20:20:04 · 1196 阅读 · 1 评论 -
TensorFlow 实现堆叠自编码器ASE
TensorFlow 实现堆叠自编码器ASE自编码器(Auto Encoder)神经网络常常用于分类,通过定义一个目标函数衡量输出与目标值之间的差异,然后通过调整系统的参数使系统尽量拟合训练数据.而对每一层神经网络来说,前一层的输出都是可看做未加工的初始数据,而这一层则是对初始数据进行加工组织的更高阶的特征.设由无类别标签的训练样本集合 {x(1) x(2) x(3) …},x(i)∈Rn...转载 2019-01-08 20:09:52 · 2521 阅读 · 2 评论 -
基于机器学习的网页抽取
基于机器学习的网页抽取最近在做一个网站信息爬取并分析的项目,要将几百个网站的数据标题,正文,发布机构,发布时间等信息提取出来。经过搜索资料,找到了下面这篇博客,引用下来分享。作者的项目,给了36个安全网站相关的博客网站,需要将其中的博客正文都抽取出来,而且需要满足以后添加一个博客网站的链接,就可以自动完成正文的抽取工作。以前写过的爬虫是正则或CSS选择器(或xpath)的网页抽取都基于属于基...转载 2019-01-08 14:56:05 · 1967 阅读 · 0 评论 -
one-hot编码方式的python实现
one-hot编码方式的实现什么是One-Hot编码?One-Hot编码,又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效。One-Hot编码是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。然后,每个整数值被表示为二进制向量,除了整数的索引之外,它都是零值,它被标记为1。我们可以使用以下三种方式来实现...原创 2019-01-07 22:35:25 · 5536 阅读 · 0 评论 -
python爬取数据并存入excel
爬虫存入excel项目需求公司的爬虫项目:爬取数据,以满足文本分析,词频统计的需要。由同事整理好所需链接存入excel,我直接打开连接,爬取网站数据。由于仅仅需要进行词频分析,不需要进一步的挖掘,又因为不同网站源码差距很大,故采取了简单的将整个页面获取并用soup.get_text()方法提取文本信息。全程自动化运行。所需改进因为不同网站源码差距很大,将整个页面源码爬取并存储的方法,包含太...原创 2019-01-17 15:17:51 · 4385 阅读 · 0 评论 -
python脚本将mysql中的数据存入Elasticsearch
python脚本将mysql中的数据存入Elasticsearch公司项目数据分析的项目,需要爬虫获取数据存入msyql,然后将mysql的数据转存到elasticsearch,没有太高效率的需求,只需判断各字段非空即可。简单的python实现代码和ES创建的代码如下:python从mysql转存到ESimport MySQLdbimport pandas as pdimport re...原创 2019-01-17 10:55:12 · 1235 阅读 · 0 评论