Python
文章平均质量分 56
零度愿望
愿你 眼中总有光芒, 活成你想要的模样.
展开
-
后缀是ipynb打开方式
在该文件夹按shift, 鼠标点击右键 会出现一个 在此处打开命令窗口(W)输入命令ipython notebook 等价于jupyter notebook原创 2018-08-08 10:46:07 · 3547 阅读 · 0 评论 -
log日志信息统计与画图
os.listdir(path)可以将路径下的文件地址都拿到----------------------------------------------------------------------------------------------------------------------------#!/usr/bin/env python# -*- coding: ...原创 2018-08-08 20:55:02 · 1365 阅读 · 0 评论 -
openpyxl 解析电子表格(.xlsx)数据,末尾增加一行,且保留原格式
openpyxl 添加数据的时候不需要复制表格,这点尤为方便。 下面是在表格末尾添加数据,由于添加的数据已没有原本的单元格样式,所以需要设置他的单元格样式与上文保持一致。 pandas 如何获取所需数据的索引(判断条件可以改变,结果为列表)import openpyxlfrom openpyxl.styles import PatternFill, Alignmentimpor...原创 2018-10-15 09:58:10 · 12389 阅读 · 0 评论 -
python3 有关字典的一些用法
元组转字典,当元组重复的时候,字典中只需把相同的keys值的values相加如:res = (('a', 1), ('a', 2), ('c', 3), ('d', 4))转为:{'a': 3, 'c': 3, 'd': 4} # 组成字典,若重复,则是values值相加 res = (('a', 1), ('a', 2), ('c', 3), ('d',...原创 2018-10-30 10:11:30 · 259 阅读 · 0 评论 -
python3用PyPDF2解析pdf文件,用正则匹配数据
import PyPDF2 import re pdf_file = open('xxx.pdf', mode='rb') read_pdf = PyPDF2.PdfFileReader(pdf_file) # 获取pdf文件的所有页数 number_of_pages = read_pdf.getNumPages() # print...原创 2018-10-30 10:57:44 · 2716 阅读 · 0 评论 -
python3 time和datetime关于strftime,strptime的用法
time和datetime傻傻搞不清楚数据转换为日期的方法,作为日期存在电子表格中,只能用datetime.date.today() 或datetime.datetime.strptime(a, '%Y%m%d').date(),才能存为日期格式的数据import timeimport datetimea = '20181114'print(time.str...原创 2018-11-14 13:17:40 · 8118 阅读 · 0 评论 -
python 学习语法有感
原文来自Crossin的编程教室: https://mp.weixin.qq.com/s/efdz4pRVliKASurmLogMIw1,交换两个变量的写法:普通:temp = a a = b b = temppythonic: a, b = b, a2,类似的解包(unpacking)用法还可以实现多个返回值的函数普通:d...转载 2018-12-20 14:25:37 · 235 阅读 · 0 评论 -
缓存redis 配置
缓存的配置: 在Django的setting中:CACHES = { 'default': { 'BACKEND': 'django_redis.cache.RedisCache', 'LOCATION': 'redis://your_host_ip:6379', "OPTIONS": { "CLIENT_CLA...原创 2018-07-21 17:12:45 · 344 阅读 · 0 评论 -
mongo安装与自启动
1: 先下载MongoDB2:安装第二步 : 选择第二个 custom (自定义); 记住安装路 3:打开安装路径,新建data文件夹,在data文件夹中建一个db 文件夹. 4:打开cmd窗口:敲三步命令 如下图: 在db文件夹中多了好...原创 2018-06-07 21:05:59 · 433 阅读 · 1 评论 -
pyspider: 爬虫框架,基于PyQuery实现的。
pyspider: 爬虫框架,基于PyQuery实现的。优势:1. 基于多线程异步的任务调度方式;可以实现爬虫的高并发爬取,注意使用代理;2. 它提供了一个WebUI的爬虫任务管理界面,可以实现爬虫的停止,启动,调试,支持定时爬取任务;3. 代码简洁;4. 支持动态网站的爬取; requests/urllib只能爬取静态网站。phantomjsphantomjs: 幽灵浏览器,无界面版的浏览器。劣...原创 2018-06-14 20:48:42 · 324 阅读 · 0 评论 -
woff 这种字体文件怎么抓取数据
这是在请求起点中文网的小说字数时遇到的问题.pip install fontTools 是用于将woff这种字体文件转化成XML文件在python的命令窗口运行这句话.================================================================首先要先查看这个woff文件内容是什么需要先下一个工具来查看即下图这个软件(需破解)安装下图这个,先装英...原创 2018-06-14 22:25:19 · 14162 阅读 · 3 评论 -
Python 虚拟环境 python爬虫 scrapy框架
Python虚拟环境安装完成后如何创建项目:先进入py3scrapy才能创建哦!用pycharm打开为在setting中:# Obey robots.txt rules# Scrapy框架默认遵守 robots.txt 协议规则,robots规定了一个网站中,哪些地址可以请求,哪些地址不能请求。# 默认是True,设置为False不遵守这个协议。ROBOTSTXT_OBEY = False----...原创 2018-07-03 22:59:34 · 348 阅读 · 0 评论 -
发送带有附件的邮件
啥都不说,代码如下:# 发送带有附件的邮件。import smtplibfrom email.mime.text import MIMETextfrom email.mime.image import MIMEImagefrom email.mime.multipart import MIMEMultipart, MIMEBasefrom email import encoders...原创 2018-07-12 20:40:47 · 2262 阅读 · 0 评论 -
scrapy框架 selenium的使用
scrapy框架只能爬取静态网站。如需爬取动态网站,需要结合着selenium进行js的渲染,才能获取到动态加载的数据。 如何通过selenium请求url,而不再通过下载器Downloader去请求这个url?方法:在request对象通过中间件的时候,在中间件内部开始使用selenium去请求url,并且会得到url对应的源码,然后再将源代码通过response对象返回,直接交给process...原创 2018-07-12 22:17:38 · 1183 阅读 · 0 评论 -
scrapyd服务器 gerapy分布式爬虫管理框架
scrapyd 服务器:需要安装scrapyd==1.2.0 scrapyd-client==1.2.0a1 安装之后虚拟环境中应有scrapyd-deploy 启动scrapyd服务(此命令单独开一个窗口,不与其他的命令一块) 3 .配置爬虫项目4 开始向scrapyd中部署项目通过scrapyd-deploy命令测试scrapyd-deploy是否可...原创 2018-07-18 22:46:42 · 275 阅读 · 0 评论 -
使用Item Loaders对Item数据进行提取和解析(整理) 以及 多线程异步的形式对数据进行写入
使用Item Loaders对Item数据进行提取和解析(整理)。作用 : 之前的方式,是将数据的提取和解析混合在一起,但是Item Loaders是将这两个部分分开处理了;爬虫文件bole.py中只负责数据的提取;Items.py文件负责数据的整理;(可以实现数据解析代码的重用。相当于将功能相同的解析函数封装成为一个公用的函数,任何爬虫需要这个函数,都可以来调用。)1. 使关于数据的提取代码更加...原创 2018-07-13 13:05:30 · 626 阅读 · 0 评论 -
python scrapy框架 保存数据 .json/.csv /.txt/.xlsx 数据库pymysql, pymongo 下载图片与文件
整理笔记如下:一 保存为 .json类型在pipelines.py中:import jsonclass JsonPipeline(object): def __init__(self): # 保存的文件 self.file = open('novel.json', 'wb') def process_item(self, item, spid...原创 2018-07-07 17:46:54 · 913 阅读 · 1 评论