weixin_39012047-CSDN博客

原创机器学习100天（3）

# Importing the librariesimport pandas as pdimport numpy as np# Importing the datasetdataset = pd.read_csv('../datasets/50_Startups.csv')# 取数据的所有行，前4列为xX = dataset.iloc[:, :4].values# 取所有行，第五...

2018-12-29 14:47:25 260

原创机器学习100天（2）

# Data Preprocessingimport pandas as pdimport numpy as npimport matplotlib.pyplot as pltdataset = pd.read_csv('../datasets/studentscores.csv')# 取第一列为xX = dataset.iloc[:, :1].values# 取第二列为yY...

2018-12-28 14:42:37 289

原创 tensorflow错误

1:tensorflow遇到的tf.nn没有属性sequence_loss问题tf.nn.seq2seq.sequence_loss_by_example变为tf.contrib.legacy_seq2seq.sequence_loss_by_exampletf.nn.rnn_cell. 变为tf.contrib.rnn.2:python TypeError: Expected in...

2018-12-28 10:06:13 277

原创机器学习100天（1）

# Step 1: Importing the librariesimport numpy as npimport pandas as pd# Step 2: Importing dataset# 读入数据dataset = pd.read_csv('../datasets/Data.csv')# 取数据的前三列为X，最后一列为Y# iloc[:]：前表示取行，后表示取列# ...

2018-12-27 14:00:32 204

原创 python读取大文件

rf = open('1.txt', 'r')wf = open('2.txt', 'w')size = 500read = rf.read(size)while len(read)>0: wf.write(read) read = rf.read(size)rf.close()wf.close()

2018-12-18 15:33:17 331

原创服务器上镜像程序

nohup python -u 1.py >logs &结果显示进程id号nohup: ignoring input and redirecting stderr to stdout然后ctrl C关闭tail -f logs查看运行程序kill -9 进程id杀死程序lsof -i:id号查看程序状态 topnvidia-smi...

2018-12-14 09:20:38 347

原创 python读取xlsx

import xlrddata = xlrd.open_workbook('path')# 第1个sheettable = data.sheet()[0]# 获取行数nrows = tables.nrowsfor i in range(nrows): if i == 0: continue # 第i行第j列 pri...

2018-12-13 10:48:48 679

转载常见的32项NLP任务以及对应的评测数据、评测指标、目前的SOTA结果以及对应的Paper

任务描述 corpus/dataset 评价指标 SOTA 结果 Papers Chunking 组块分析 Penn Treebank F1 95.77 ...

2018-11-24 20:43:59 5693

原创解决Keras加载模型TypeError: ('Keyword argument not understood:', u'return_state')

由于使用了安装了tensorflow，特搜人flow自带了keras，所以在自己安装keras时版本需要与tensorflow内置的一样。不一致的话会出现错误。

2018-11-16 14:47:02 9655 3

原创 Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation

摘要：在本文中，我们提出了一种新的神经网络模型，称为RNN编码器 - 解码器，由两个递归神经网络（RNN）组成。一个RNN编码器将特征编码为一个固定长度的向量，另一个解码器解码这个向量为另一个符号序列。联合训练所提出的模型的编码器和解码器以最大化给定源序列的目标序列的条件概率。通过使用由RNN编码器 - 解码器计算的短语对的条件概率作为现有对数线性模型中的附加特征，相较于统计机器翻译系统的性能得到...

2018-11-16 14:29:05 895

原创 python匹配两个短语之间的字符

def ref_txt_demo(): f = open('1.txt', 'r') data = f.readlines() for line in data: line1 = str(line.strip()) result = re.findall('中.*?法', line1) for x in result: ...

2018-11-15 09:58:59 2383

原创 ubuntu16.04下百度云盘大文件下载

安装火狐浏览器插件Aria2下载器集成组件：安装aria2：sudo apt-get install aria2配置：sudo mkdir /etc/aria2sudo touch /etc/aria2/aria2.sessionsudo chmod 777 /etc/aria2/aria2.sessionsudo vi /etc/aria2/aria2.conf...

2018-11-13 16:27:24 1663

原创 python selenium pykeyboard

python selenium pykeyboard操作网页实现本地文件上传：import sysfrom selenium import webdriverfrom pykeyboard import PyKeyboardimport timebrowser = webdriver.Chrome()browser.get('http://app.xunjiepdf.com/o...

2018-11-13 13:53:12 991

转载理解GloVe模型（Global vectors for word representation）

原文：https://blog.csdn.net/coderTC/article/details/73864097理解GloVe模型概述模型目标：进行词的向量化表示，使得向量之间尽可能多地蕴含语义和语法的信息。输入：语料库输出：词向量方法概述：首先基于语料库构建词的共现矩阵，然后基于共现矩阵和GloVe模型学习词向量。开始统计共现矩阵训练词向量结束统计共现矩阵设共现矩阵为...

2018-11-09 15:07:18 502

原创 CRNN+CTC

CRNN：特点：端到端；可以处理任意长度的序列；无词典或有词典效果都显著；有效并且小的模型在CRNN的底部，卷积层自动从每个输入图像中提取特征序列。将得到的特征序列（所有特征图按照列进行拼接）输入到循环网络，用于对卷积层输出的特征序列的每一帧进行预测。在CRNN顶部的转录层中将循环层的每帧预测转化为标签序列。虽然CRNN由不同类型的网络架构（如CNN和RNN）组成，但可以通过一个损失...

2018-11-08 17:37:22 8043

原创 Building Fast and Compact Convolutional Neural Networks for Offline HCCR

--pattern recognition 2017 代码：https://github.com/zwt0204/HCCR-HWDB-tensorflow摘要：像其他的计算机视觉技术一样，离线的手写文字识别使用CNN方法取得了很好的效果。但是需要非常复杂的网络才可以取得较好的效果。这样的网络直观地看起来计算成本过高，并且需要存储大量参数，这使得它们在便携式设备中部署是不可行的。为了解决...

2018-11-07 13:03:35 2478 10

转载 AI 从业者都应该知道的实验数据集

雷锋网AI 科技评论按：数据集对于深度学习模型的重要性不言而喻，然而根据性质、类型、领域的不同，数据集往往散落在不同的资源平台里，急需人们做出整理。fast.ai近期将这些重要的数据集汇总到了一篇文章里，雷锋网 AI 科技评论把文章编译如下。少了数据，我们的机器学习和深度学习模型什么也干不了。这么说吧，那些创建了数据集、让我们可以训练模型的人，都是我们的英雄，虽然这些人常常并没有得到足够的感谢...

2018-11-01 10:28:03 728

原创 tensorflow函数更名

tf.sub()更改为tf.subtract() tf.mul()更改为tf.multiply() tf.types.float32更改为tf.float32 tf.pact()更改为tf.stact() tf.neg 更改为tf.negative tf.train.SummaryWriter 改为：tf.summary.FileWriter tf.merge_all_summarie...

2018-10-26 17:39:33 225

转载机器学习常用数据集

在机器学习中，寻找数据集也是非常重要的一步。质量高或者相关性高的数据集对模型的训练是非常有帮助的。那么用于机器学习的开放数据集有哪些呢？文摘菌给大家推荐一份高质量的数据集，这些数据集或者涵盖范围广泛（比如 Kaggle），或者非常细化（比如自动驾驶汽车的数据）。首先，在搜索数据集时，在卡内基·梅隆大学有以下说法：数据集不应混乱，因为你不希望花费大量时间清理数据。数据集不...

2018-10-25 13:49:36 1218

转载自然语言处理里程碑

自然语言是人类独有的智慧结晶。自然语言处理（Natural Language Processing，NLP）是计算机科学领域与人工智能领域中的一个重要方向，旨在研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。用自然语言与计算机进行通信，有着十分重要的实际应用意义，也有着革命性的理论意义。由于理解自然语言，需要关于外在世界的广泛知识以及运用操作这些知识的能力，所以自然语言处理，也...

2018-10-23 14:28:22 357

转载美团知识图谱

分享嘉宾 | 王仲远（美团 AI Lab NLP 中心负责人）整理 | 周翔出品 | AI科技大本营作为人工智能时代最重要的知识表示方式之一，知识图谱能够打破不同场景下的数据隔离，为搜索、推荐、问答、解释与决策等应用提供基础支撑。比如美团大脑就围绕吃喝玩乐场景构建的生活娱乐领域的超大规模知识图谱，为用户和商家建立起全方位的链接，对应用场景下的用户偏好和商家定位进行更深度的理解，...

2018-10-23 14:25:18 868

转载 ROC/AUC

ROC/AUC作为机器学习的评估指标非常重要，也是面试中经常出现的问题（80%都会问到）。其实，理解它并不是非常难，但是好多朋友都遇到了一个相同的问题，那就是：每次看书的时候都很明白，但回过头就忘了，经常容易将概念弄混。还有的朋友面试之前背下来了，但是一紧张大脑一片空白全忘了，导致回答的很差。我在之前的面试过程中也遇到过类似的问题，我的面试经验是：一般笔试题遇到选择题基本都会考这个率，那个率，...

2018-10-22 17:20:59 194

原创注意力机制学习

如上图所示，人在看一些事物时，往往注意到的地方是不一样的。其中红色区域表明视觉系统更关注的目标，很明显对于图1所示的场景，人们会把注意力更多投入到人的脸部，文本的标题以及文章首句等位置。 1.Encoder-Decoder框架在语言处理的场景下，上图可以理解为，在给定一些文本的情况下，生成其他的文本的通用架构。如果Source是中文句子，Target是英文句子，那么这...

2018-10-18 16:56:11 156

转载 Anaconda找包，安装包时，遇到PackageNotFoundError： ''Package missing in current channels"

Anaconda作为一个工具包集成管理工具，下载python工具包是很方便的，直接敲：conda install package_name1但是有时候安装一个工具包（如skimage）的时候，在当前的channels中找不到这个包，会提示：PackageNotFoundError: Packages missing in current channels: - skimage...

2018-10-18 11:20:17 1294

原创 tensorflow保存和加载模型

保存的结果：checkpoint files：二进制文件，保存了所有weights，biases，gradient and all the other variables的值。也就是上图中的.data-00000-of-00001和.index文件。.data文件包含了所有的训练变量。以前的TensorFlow版本是一个ckpt文件，现在就是这两个文件了。与此同时，Tensorflow还有一个...

2018-10-16 13:58:52 115

原创 anaconda环境变量配置

~ /anaconda3/bin为.Sh所在home目录路径在终端输入：sudo gedit ~/.bashrc打开注册表后，在注册表中加入：exportPATH=~/anaconda3/bin:$PATH立即生效，输入：source ~/.bashrc...

2018-10-10 09:21:49 1376

原创 git基本操作

1.安装git sudo apt-get install git2.输入git测试是否安装成功3.配置git用户名和邮箱git config --gloabl user.name "yourname "git config --gloabl user.emain "youremailname "4.生成sshkeyssh-keygen -t rsa -C "your_e...

2018-10-09 09:32:55 87

原创 anaconda安装多个版本tensorflow切换

1.conda create -n tensorflow1.4 python=3.52.source activate tensorflow1.43.pip install tensorflow==1.44.导入环境配置相应的包5.conda remove -n tensorflow1.4 --all删除环境

2018-10-04 20:27:30 9178

转载正则表达式

1、匹配中文:[\u4e00-\u9fa5]2、英文字母:[a-zA-Z]3、数字:[0-9]4、匹配中文，英文字母和数字及下划线：^[\u4e00-\u9fa5_a-zA-Z0-9]+$同时判断输入长度：[\u4e00-\u9fa5_a-zA-Z0-9_]{4,10}5、(?!_)　　不能以_开头(?!.*?_$)　　不能以_结尾[a-zA-Z0-9_\u4e00-\u9...

2018-09-26 09:44:59 289

转载 python同时安装了py2与py3在安装包时的问题

python2是ubuntu自带的，Python3是自己安装的。使用Python2的pip安装包sudo python2 -m pip install numpy1使用Python3的pip安装包sudo python3 -m pip install numpy

2018-09-21 10:38:13 324

原创 ubuntu16.04配置elasticsearch

1.wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-5.4.1.tar.gz2.tar -xzf elasticsearch-5.4.1.tar.gz3.cd /home/app/es/elasticsearch-5.4.1/ ./bin/elasticsearch4.访问一下服务器的92...

2018-09-20 17:03:09 548

原创 sklearn实现精确率召回率

# 构建混淆矩阵from sklearn.metrics import confusion_matrixconfusion_matrix(y_test_labels, y_pred_labels)# 精准率与召回率from sklearn.metrics import precision_score, recall_scoreprint(precision_score(y_test_...

2018-09-19 13:42:14 3585

原创 keras保存模型

model.save(filepath)将Keras模型和权重保存在一个HDF5文件中，该文件将包含：模型的结构，以便重构该模型模型的权重训练配置（损失函数，优化器等）优化器的状态，以便于从上次训练中断的地方开始保存模型结构和模型参数：如果你只是希望保存模型的结构，而不包含其权重或配置信息，可以使用：# save as JSONjson_string = model....

2018-09-19 13:22:47 866

原创 ubuntu下安装百度云盘

deb包下载链接: https://pan.baidu.com/s/1hskY04G 密码: f66d 安装deb包在自己的下载目录下打开终端，输入以下指令 sudo dpkg -i bcloud_3.9.1_all.deb sudo apt -f install然后再次输入sudo dpkg -i bcloud_3.9.1_all.deb 完成...

2018-09-18 10:35:03 4647 8

原创比较两个文件是否相同

f1 = open('1.txt', "r")f2 = open('2.txt', "r")file1 = f1.readlines()file2 = f2.readlines()result1 = []result2 = []for i in file1: result1.append(i.strip())for j in file2: result2.appen...

2018-09-13 15:13:27 1109

原创 TextCNN

如上图所示：TextCnn就是利用类似于处理图像的方法，将文本输出组成为矩阵，对文本中语义信息进行学习。论文中对textcnn的配图 cnn在图像处理方面已经取得了不菲的成就. 将句子分割为单词拼接起来可以将文本拼接为图片的格式。卷积具有局部特征提取的功能, 所以可用 CNN 来提取句子中类似 n-gram 的关键信息. 主要参数：sequence_lengt...

2018-09-11 09:24:31 1970 2

原创 python读取目录下最新的文件夹

def new_report(test_report): lists = os.listdir(test_report) # 列出目录的下所有文件和文件夹保存到lists lists.sort(key=lambda fn: os.path.getmtime(test_report + "/" + fn)) #...

2018-09-07 16:21:02 2605

原创 python中路径问题

1.import osprint os.getcwd() #获取当前工作目录路径print os.path.abspath('.') #获取当前工作目录路径print os.path.abspath('test.txt') #获取当前目录文件下的工作目录路径print os.path.abspath('..') #获取当前工作的父目录！注意是父目录路径print os.path....

2018-09-07 14:17:21 481

原创 neo4j无界面修改密码

我用的是 CentOS 操作系统，无UI界面，下面介绍怎么样初始化用户名、密码：到 Neo4j的 bin 目录下，运行 ./cypher-shell 密令，打开cypher-shell 工具：安装完Neo4j后默认的初始用户名是:neo4j ，密码也是：neo4j 输入后就可以登录成功了。但我们目前还不能运行Cypher命令，现在直接运行Cypher 会提示需要修改默认密码...

2018-09-07 09:31:54 3909 1

原创复杂网络

NetworkX是一个用Python语言开发的图论与复杂网络建模工具，内置了常用的图与复杂网络分析算法，可以方便的进行复杂网络数据分析、仿真建模等工作。networkx支持创建简单无向图、有向图和多重图（multigraph）；内置许多标准的图论算法，节点可为任意数据；支持任意的边值维度，功能丰富，简单易用。1.安装networkx包2.G = nx.Graph() ...

2018-09-06 13:54:36 2051

空空如也

空空如也