- 博客(53)
- 资源 (8)
- 收藏
- 关注
原创 发邮件自动回复本机IP——python版本
这几天在写爬虫,有时候在宿舍需要远程登陆到实验室的主机上对代码进行一些微调,但是因为动态ip经常不知道实验室主机的IP是多少,因此产生了写这个小工具的想法。 工作原理描述: 首先需要一个专用的邮箱,该工具每隔2分钟查询有没有新邮件。当用户向该邮箱发送邮件查询ip时,该工具接收邮件并获取本机IP,并将该IP发送给用户。 思路很清晰,需要解决的问题很明确 1) 接收邮件 2) 发送邮件 3) 获取I
2016-04-27 10:04:21 6195
原创 利用Scrapy爬取1905电影网
本文将从以下几个方面讲解Scrapy爬虫的基本操作Scrapy爬虫介绍Scrapy安装Scrapy实例——爬取1905电影网相关资料Scrapy 爬虫介绍Scrapy是Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。Scrapy吸引人的地方在于它是一个框架,任何人都可以根据
2016-04-21 17:15:59 146857 3
原创 python2.7 pip install 报错KeyError: u'\u6e29'解决方案
今天在安装pyquery包时遇到了这个问题BUG产生原因首先从报错开始入手KeyError: u'\u6e29'一看是个Unicode字符,转换过来发现是“温”这个字,到这时大概已经知道问题产生的原因了当前电脑的用户名是温,win10 user目录直接用的是中文C:\Users\温,可能Pip不能处理unicode字符解决方法众所周知python2的
2016-04-13 00:40:47 9067
原创 基于gensim模块的中文句子相似度计算工具
概述中文句子相似度的计算有很多模型,我们使用 TFIDF , LSI 与 LDA 模型这3中模型更加适用于文章相似度的计算对于句子来说,长度太短,正确率相对不高算法及代码具体这几种模型的原理介绍可以参考别人的博客(如果我有时间就找找)gensim包提供了这几个模型,因此我们直接拿来用就好我将这个模型进行了简单的封装,包括增加了中文分词分句,并提供清晰简洁的API
2016-04-05 00:27:08 14802 2
原创 python 中文分词
最近要写一个计算两个句子相似度的程序,需要分词,因此上网找找有关Python分词的资料。看了别人的介绍,发现在python分词可选择中科院的分词和结巴分词,由于中科院分词要调用C++,所以我选择了结巴分词结巴分词速度还行,但没有停用词表。于是我将结巴分词包装了一下,加入百度停用词列表、哈工大停用词表扩展、四川大学机器智能实验室停用词库与中文停用词库这四个停用词库。结巴分词G
2016-03-31 20:04:31 5427
原创 mysql 5 插入数据有不识别字符问题 解决方法
注意:本文试用于试用insert插入数据时,产生不识别Incorrect string value: '\xF0\x9F\x92\xBC' for column 'Rins' at row 1 at 的问题 最近在写一个爬虫爬医学相关网站,其中遇到了 Incorrect string value: '\xF0\x9F\x92\xBC' for column 'Rins' at
2016-03-19 22:14:14 4781
原创 现代信息检索作业5——2
#include#includeusing namespace std;typedef unsigned char Bit;class BitStream{public: unsigned char* bitstream; int position; int start; BitStream() { start = 0; position = 0; bits
2014-10-27 16:26:48 4296
原创 现代信息检索作业5
#include#include#includeusing namespace std;#define BYTE unsigned char#define STREAM 100#define ARRAY 10void PrintInBinary(BYTE* bytestream,int length){ for(int i=0;i<length;i++) { BYTE
2014-10-27 16:12:31 4314
原创 at dalvik.system.NativeStart.main(Native Method) 问题原因及解决方法
这是在两个活动中切换时遇到的问题解决方法就是在AndroidManifest.xml中加入XXX为要转入活动类名即可
2013-07-08 05:16:26 11637
原创 Android编程——应用上网许可
在做一款查单词的软件其中在获得InputStream stream = urlConn.getInputStream();时一直会抛出异常纠结了一下午发现是我没有设置应用可以上网具体解决方法如下在AndroidManifest.xml中加入即可位置我是放在了上面一行处
2013-07-05 20:14:18 4092
获取汉字偏旁部首的小程序 Python版本
2016-08-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人