python
文章平均质量分 50
LCYong_
这个作者很懒,什么都没留下…
展开
-
python读取Excel
环境 python3.4首先需要安装 xlrd代码如下:import xlrddef excel_table_byindex(file,colnameindex): data = xlrd.open_workbook(file) table = data.sheets()[0] nrows=table.nrows#获取行数 ncols=tab原创 2016-12-02 21:43:24 · 503 阅读 · 0 评论 -
Python3+selenium+PhantomJS+scrapy获取B站排行版Ajax动态爬虫
1 安装需要的依赖pip install seleniumpip install scrapypip install pymysqlPhantomJS下载地址: http://phantomjs.org/download.html2 创建scrapy项目scrapy startproject bilibilicd bilibiliscrapy genspide原创 2018-01-16 18:32:17 · 1008 阅读 · 0 评论 -
Python3调用百度翻译API,实现实时翻译
今天需要做一个翻译的工具,找到之前写过的有道翻译,已经不能用了,最后看到百度翻译还不错,不过官方版本是Python2,我需要Python3,就自己写了一个:# coding: utf8''' @Author: LCY @Contact: lchuanyong@126.com @blog: http://http://blog.csdn.net/lcyong_原创 2018-01-15 20:55:59 · 7403 阅读 · 4 评论 -
python中的jieba分词
# coding: utf8''' @Author: LCY @Contact: lchuanyong@126.com @blog: http://http://blog.csdn.net/lcyong_ @Date: 2018-01-09 @Time: 23:06'''import jiebafrom collections import Coun原创 2018-01-12 22:08:28 · 720 阅读 · 0 评论 -
Python的时间函数处理
Python中的时间函数为time一般有一下三种处理方式import timeprint '当前时间距离1970年:time'print time.time()print '格式化时间戳:time.localtime(time.time())'print time.localtime(time.time())print "格式化时间:time.strftime('%Y%m%原创 2017-06-04 09:56:08 · 790 阅读 · 0 评论 -
SyntaxError: Non-ASCII character '\xe5' in
环境 Python2.7 Ubuntu16写print 的时候,里面有汉字就报错,后来查了下Python默认编码是ascll,所以才会报错解决方案很简单,在项目的开头声明UTF-8就可以了# -*- coding: UTF-8 -*-原创 2017-06-04 09:49:57 · 659 阅读 · 0 评论 -
反反爬虫------设置scrapy随机user_agents
在我们使用爬虫的时候,总会遇到一些网站规则,限制我们去爬取,其中一个就行限制浏览器请求头我们可以设置一个user_agent的列表,然后随机抽取其中的一个作为浏览器请求头,这样每次访问网站就可以使用不同的浏览器请求头了在setting设置中,添加以下代码USER_AGENT_LIST=[ "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWeb原创 2017-06-03 21:09:44 · 3221 阅读 · 0 评论 -
UnicodeDecodeError: 'ascii' codec can't decode byte 0xef in position 458: ordinal not in range(128)
环境:Ubuntu Python2.7解决办法:1 命令行查找mimetypes.py路径#find / -name mimetypes.py2 打开mimetypes.py文件在 import下一行添加sys.setdefaultencoding('utf-8')import osimport sysimport posixpathimport urllib原创 2017-06-03 20:11:19 · 756 阅读 · 0 评论 -
爬虫学习笔记四、 python爬虫实战,爬取图书馆资料,存储到mysql数据库
以图书馆为例,用Python写爬虫原创 2016-11-21 21:23:50 · 6994 阅读 · 1 评论 -
scrapy+spynner获取ajax中的内容(以微信公众号为例)
现在越来越多的网站的使用ajax来动态加载数据,scrapy只能获取静态html中的数据,对于动态加载的就无能为力了spynner是一个模拟浏览器加载的工具,可以在后台模拟ajax加载后的网页,然后再通过scrapy进行爬取原理就是在scrapy的中间件设置spynner模块加载微信公众号里面的内容,文字可以直接加载出来,但是图片使用的是ajax技术,如果我们成功获取到了图片的src则原创 2017-06-07 22:34:51 · 2528 阅读 · 0 评论 -
apt-file好厉害的解决了安装依赖问题
今天安装spynner的时候,一直报错一直报错,各种依赖没有被安装,搞了好半天,每一个依赖都得搜一遍到底缺那个文件,麻烦得要命后来发现了这么个厉害的东西可以很好的解决各种文件缺失安装#sudo apt-get install apt-file更新apt-file update现在就可以使用了 apt-file search '缺少的文件名'原创 2017-06-07 21:45:32 · 4264 阅读 · 0 评论 -
使用Python写的翻译工具
环境:Python3.5使用有道翻译,通过Post提交json来实现源码如下import urllib.requestimport urllib.parseimport jsondef fanyi(content): url='http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&s原创 2017-03-26 22:12:56 · 2399 阅读 · 0 评论 -
正则表达式
一 元字符1 [ ]常用来表示一个字符集 [abc];[a-z]元字符在字符中不起作用:补齐匹配不在区间范围的字符:[^4]2 ^匹配行首,设置MULTILINE标志,他只是匹配字符串的开始,在MULTILINE模式里,他也可以直接匹配字符串中的每一个换行^4(必须写在要匹配的字符串前面)3 $匹配行尾,行尾被定义为要么字符串尾,要么是一个换行字符原创 2017-03-26 17:54:39 · 364 阅读 · 0 评论 -
python ------ 自动发送邮件
测试环境:python3.4 发件服务器 网易yeah收件服务器 移动139邮箱注意:一定要在发件的邮箱里面设置POP3/SMTP/IMAP为开启状态,要不然会报错:535 Error:authentication failed通过本程序,可以自动给自己的手机邮箱发送邮件,在手机邮箱中把发件地址设置为白名单,就可以在手机收到短信通知原创 2016-11-27 13:01:06 · 2130 阅读 · 7 评论 -
Python写文件错误:UnicodeEncodeError: 'gbk' codec can't encode character '\U0001f42c' in posit
在打开文件: fhandle = open('./song_comments1.txt', 'a') 更改为: fhandle = open('./song_comments1.txt', 'a',encoding='utf-8') 设置以utf-8打开文件。原创 2018-01-09 14:13:43 · 6052 阅读 · 0 评论