- 博客(4)
- 资源 (8)
- 收藏
- 关注
原创 发邮件自动回复本机IP——python版本
这几天在写爬虫,有时候在宿舍需要远程登陆到实验室的主机上对代码进行一些微调,但是因为动态ip经常不知道实验室主机的IP是多少,因此产生了写这个小工具的想法。 工作原理描述: 首先需要一个专用的邮箱,该工具每隔2分钟查询有没有新邮件。当用户向该邮箱发送邮件查询ip时,该工具接收邮件并获取本机IP,并将该IP发送给用户。 思路很清晰,需要解决的问题很明确 1) 接收邮件 2) 发送邮件 3) 获取I
2016-04-27 10:04:21 6195
原创 利用Scrapy爬取1905电影网
本文将从以下几个方面讲解Scrapy爬虫的基本操作Scrapy爬虫介绍Scrapy安装Scrapy实例——爬取1905电影网相关资料Scrapy 爬虫介绍Scrapy是Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。Scrapy吸引人的地方在于它是一个框架,任何人都可以根据
2016-04-21 17:15:59 146857 3
原创 python2.7 pip install 报错KeyError: u'\u6e29'解决方案
今天在安装pyquery包时遇到了这个问题BUG产生原因首先从报错开始入手KeyError: u'\u6e29'一看是个Unicode字符,转换过来发现是“温”这个字,到这时大概已经知道问题产生的原因了当前电脑的用户名是温,win10 user目录直接用的是中文C:\Users\温,可能Pip不能处理unicode字符解决方法众所周知python2的
2016-04-13 00:40:47 9067
原创 基于gensim模块的中文句子相似度计算工具
概述中文句子相似度的计算有很多模型,我们使用 TFIDF , LSI 与 LDA 模型这3中模型更加适用于文章相似度的计算对于句子来说,长度太短,正确率相对不高算法及代码具体这几种模型的原理介绍可以参考别人的博客(如果我有时间就找找)gensim包提供了这几个模型,因此我们直接拿来用就好我将这个模型进行了简单的封装,包括增加了中文分词分句,并提供清晰简洁的API
2016-04-05 00:27:08 14802 2
获取汉字偏旁部首的小程序 Python版本
2016-08-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人