- 博客(4)
- 收藏
- 关注
原创 关于python3.x版本 urllib修改过后遇到的几个问题
因为特意在使用python3.x版本,所以在学习爬虫的时候经常会用到一些网上2.x版本的代码,总是报错,就很尴尬。这里列出一些已经遇到的问题,之后在遇到其他的还会有补充。urlopen首先就是urlopen,在2.x版本中,urlopen的使用方法如下:import urllib2url = 'http://www.abc.com'response = urllib2.urlopen(url)而
2017-11-13 16:11:15 640
原创 python3 读中文txt文件提示 'gbk' codec can't decode byte 0x80 ...或 'gbk' codec can't encode character '\xX问题
试了很多次总算是解决了这个问题。一般这个问题是刚开始使用python3处理中文字符时最容易遇到的。 python2 中习惯使用:import sysreload(sys)sys.setdefaultencoding("utf-8")但是在python3 中该段代码可替换为:import sysimport iosys.stdout = io.TextIOWrapper(sys.stdout
2017-09-21 16:06:40 1020
原创 Word2Vec + Jieba 分词实现视频标签距离计算
Word2Vec + Jieba 分词实现视频标签距离计算看[Word2vec][1]有一点时间了,不是很理解里面的算法所以决定先亲手实践试试看。分词实现Word2vec学习实现分词实现首先将文章保存成了txt的格式,用python读取txt,并最终将分词结果存入txt文件中。其中还做了一次编码转换。#coding:utf8import jieba# 文字转码 保留片段conv_input
2017-07-25 13:54:50 1009
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人