自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 资源 (1)
  • 收藏
  • 关注

转载 tf.nn.nce_loss

http://www.jianshu.com/p/fab82fa53e16这两天因为实现mxnet的nce-loss,因此研究了一下tensorflow的nce-loss的实现。所以总结一下。先看看tensorflow的nce-loss的API:def nce_loss(weights, biases, inputs, labels, num_sampled, num_clas

2017-11-30 15:36:36 7620 2

转载 Jupyter 技巧

Toggle navigationFocus on ML & DM[译]27 个Jupyter Notebook的小提示与技巧Date  二 08 十一月 2016 Tags Jupyter notebookJupyter notebook, 前身是 IPython notebook, 它是一个非常灵活的工具,有助于帮助你

2017-11-28 10:41:58 12501

原创 word2vec

import pandas as pdimport numpy as npfrom gensim.models import Word2Vecimport gensimimport redata = pd.read_csv('liepin_fenci.csv')#cixing_data = data['cixing']# aaa = data.iloc[:1000, 2]cixi

2017-11-01 20:20:36 435

原创 karas 实现lstm 文本分类

# In[4]:#网址来源#https://github.com/fchollet/keras/blob/master/examples/imdb_lstm.pyfrom __future__ import print_functionfrom keras.preprocessing import sequencefrom keras.models import Sequential

2017-10-28 10:52:18 3800 2

原创 tensorflow 实现word2vec

# coding: utf-8# In[151]:import jiebaimport tensorflow as tfimport numpy as npimport mathimport collectionsimport pickle as pklfrom pprint import pprintfrom pymongo import MongoClientimpo

2017-10-28 10:45:58 581

原创 基于tensorflow 的cnn实现文本分类

# coding: utf-8# In[72]:import os, xlrdimport codecs, reimport jiebaimport rarfile import os import jieba.analyse# In[22]:file_name = '/mfsdata/pachong/cnn/Data_MeiTi'#读取文件路径#files

2017-10-25 11:08:57 1615

原创 LAD gensim 主题分析

# coding: utf-8#from gensim.models import word2vecfrom gensim.corpora import Dictionaryfrom gensim.models import LdaModelfrom gensim import modelsimport sysimport pandas as pdData=pd.read_csv

2017-10-24 18:01:41 1839

原创 linex 查看jpyter地址

linex  查看jpyter地址: tmux attach-session1 tmux2 jupyter notebook --ip 192.168.4.116 --port 8889

2017-09-29 14:49:07 364

转载 自然语言内容

作者:微软亚洲研究院链接:https://www.zhihu.com/question/19895141/answer/149475410来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。自然语言处理(简称NLP),是研究计算机处理人类语言的一门技术,包括:1.句法语义分析:对于给定的句子,进行分词、词性标记、命名实体识别和链接、句法分析、语

2017-06-27 20:26:50 701

原创 命名体识别

from bosonnlp import BosonNLPfile_object2=open('D:\A仲敏2015\python_code\\企业名实体匹配.txt').read().split('\n') #一行行的读取内容 nlp = BosonNLP('fSflwaQA.15494.d29JM3-a40Nn')#官网http://bosonnlp.com/注册账号,获取YOUR_A

2017-05-26 16:49:06 846

原创 爬虫案例

git@code.csdn.net:snippets/2413104.git

2017-05-23 15:25:05 449

转载 gensim词袋向量化

https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/gensim%20Quick%20Start.ipynbGetting Started with gensimThis section introduces the basic con

2017-05-17 13:55:57 1274

转载 jieba说明文档

jieba“结巴”中文分词:做最好的 Python 中文分词组件"Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word segmentation module.Scroll down for English documenta

2017-05-15 16:03:12 1325

转载 python 中jieba分词

https://github.com/fxsjy/jieba/issues/14"大连美容美发学校中君意是你值得信赖的选择" 这句话首先会按照概率连乘最大路径来切割,因为单字有一定概率,而“中君意是”这四个字中不含词典中有的词,所以会被切割成单字:即:大连/ 美容美发/ 学校/ 中/ 君/ 意/ 是/ 你/ 值得/ 信赖/ 的/ 选择/然后我们认为“中/ 君/ 意/ 是

2017-05-15 14:05:24 566

原创 BeautifulSoup

#encoding='utf-8'from urllib.request import urlopenfrom bs4 import BeautifulSouphtml=urlopen('http://pythonscraping.com/pages/page1.html')html=urlopen('http://pythonscraping.com/pages/page1.ht

2017-05-14 22:06:27 418

原创 python 自然语言处理 代码实现(批量读取,分词,词向量化)

#coding=utf-8#coding=gbkimport pandas as pdimport jiebaimport codecsimport pandas as pd#decode_set=['ANSI','utf-8','gb18030','ISO-8859-2','gb2312','gbk','Error'] df=open("D:\A仲敏2015\pytho

2017-05-12 16:37:11 9029 3

原创 python如何查看编码类型

##查看编码类型import chardetchardit1 = chardet.detect(cf_r)#cf_r为要查看的编码print (cf_r['encoding'])

2017-05-05 11:28:43 4458

原创 python读取中编码错误(illegal multibyte sequence )

读取中文txt文件时,经常会出现: ‘gbk' codec can't decode bytes in position 31023: illegal multibyte sequence。主要讲一种情况就是文章中含有utf-8或gbk无法编码的字符情况。好多人都说加入'ignore',但一直都没有说清楚是在open函数中加入,还是在.read()中加入(其实是在open函数中加入,如下面

2017-05-04 18:23:24 37096 5

转载 python 正则表达式 重复匹配

In [2]: ma=re.match(r')[\w]*python')   #\1代表前面括号内模式,重复匹配 In [3]: ma.group()  Out[4]: 'python' #匹配重复的字符>>> p = re.compile(r'(\b\w+)\s+\1')#\1代表前面括号内模式,重复匹配>>> p.search('Paris in the the spri

2017-04-19 17:24:49 10544

原创 python中文件的读写(含爬虫内容)

#pandas中的解析函数#read_csv:从文件,URL,文件型对象中加载带分隔符的数据。默认分隔符为“逗号”#read_table:从文件,URL,,文件型对象中加载带分隔符的数据。默认分隔符数据为制表符(‘\t’)#read_fwf:读取定宽列格式数据(即没有分隔符)#read_clipboard:读取剪切板上的数据,可以看做read_table的剪贴版,将网页转换为表格时

2017-04-17 11:20:04 1177

原创 python 结巴分词中 按行读取 csv中的文件 并将分词存储到csv中

#coding='utf-8'impo#coding='utf-8'import csvimport jiebaimport pandas as pd分词存储后如上图,数据格式,我们对上述数据的每一行进行分词,分词后如下表格式python语言如下file_object2=open('D:\A仲敏2015\python_code\\advice.csv').r

2017-04-11 17:41:55 24021 12

原创 python爬虫 爬取页面链接

#coding=utf-8from bs4 import BeautifulSoupimport lxml  import urllibfrom urllib import requesturl = 'http://ecpi.ggj.gov.cn/jndfgz/'#爬取页面req=request.Request(url)res=urllib.request.ur

2017-04-10 18:44:51 2069

转载 python爬取图片

import urllib.request,socket,re,sys,os  targetPath = "D:\\python_code\\picture"  #定义文件保存路径  def saveFile(path):      #检测当前路径的有效性      if not os.path.isdir(targetPath):          os.mkdi

2017-04-09 22:55:51 556

转载 python 编码 乱码 问题2

1、Python本身对各种语言支持都很好,字符串在python内部是用unicode编码表示的。 python支持两种编码格式,一个是UCS-2,一个是UCS-4,可以通过如下方式查看是那种:>>> import sys>>> print sys.maxunicode65535 ## 这个就是UCS-21114111 ## 这个就是UCS-42、如果要做编码转换,需要借助内

2017-04-08 22:13:11 573

转载 python 编码 乱码问题

为什么Python使用过程中会出现各式各样的乱码问题,明明是中文字符却显示成“\xe4\xb8\xad\xe6\x96\x87”的形式?为什么会报错“UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)”?本文就来研究一下这个问题。字符

2017-04-08 22:10:17 660

原创 python中pandas

import pandas as pdbj=pd.Series([4,7,-5,3])#产生带索引的一维数组bj.values#返回数组值bj.index#返回下表bj1=pd.Series([4,7,-5,3],index=['a','b','c','d'])#自定义索引bj1['a']#通过索引查找值bj1[['a','c']]#通过索引查找值,建立子集bj>2#逻

2017-04-01 16:30:44 1320 1

原创 python中numpy使用

import numpy as np#导入numpydata=[[1,2,3],[4,5,6]]#创建元组arr=np.array(data)#转化为数组arr.ndim#数组空间维数arr.shape#数据行列数arr.dtype#数据类型""int32""np.zeros(10)#指定长度np.zeros((3,6))#创建3行6列的0数组np.ones(5)#

2017-04-01 15:25:57 4784

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除