学习
玖河网络
这个作者很懒,什么都没留下…
展开
-
Pycharm配置Github版本控制
Pycharm是当前进行python开发,尤其是Django开发最好的IDE。GitHub是程序员的圣地,几乎人人都在用。本文假设你对pycharm和github都有一定的了解,并且希望在pycharm下直接使用github的版本控制功能。废话不多说,下面图文详解,全是干货。环境:pycharm 2016,git 2.8,github账户,windows7一、配置Pycharm...转载 2019-03-22 11:37:43 · 272 阅读 · 1 评论 -
python3 xpath获取同级元素的各种方法
XPath轴(XPath Axes)可定义某个相对于当前节点的节点集: 1、child 选取当前节点的所有子元素 2、parent 选取当前节点的父节点 3、descendant 选取当前节点的所有后代元素(子、孙等) 4、ancestor 选取当前节点的所有先辈(父、祖父等) 5、descendant-or-self 选取当前节点的所有后代元素(子、孙等)以及当前节点本身 6、ancestor-...转载 2018-06-19 07:58:53 · 4940 阅读 · 0 评论 -
python3 URL拼接代码
感谢网友的分享,先自己保存起来;因为网上的是基于 python2.x版本的,所以自己修改了一下能在3.x用了。将不完整的url拼接成为完整的url;比如在网页中经常遇到相对路径的 url1 = http://www.bachejian.comur2 = /abc/efc/123.html需要将他们拼接成为http://www.bachejian.com/abc/efc/123.html 就用以下代...转载 2018-06-10 23:31:10 · 10264 阅读 · 0 评论 -
Scrapy入门模版编写
scrapy startproject ArticleSpider #创建名称为ArticleSpider的项目文件【创建爬虫项目】通过以上命令来创建爬虫项目。命令行创建爬虫模板(需要在项目文件夹内执行,避免模板创建到其他地方)scrapy genspider jobbole blog.jobbole.com(正确的创建模板路径应该是:E:\boo\zidongpa\ArticleSpider\执...原创 2018-06-03 18:34:50 · 1170 阅读 · 0 评论 -
python3 json.decoder.JSONDecodeError: Expecting property name enclosed in double quotes: line 1 col
需要把字符串类型的json转换成字典,但是一直提示 json.decoder.JSONDecodeError: Expecting property name enclosed in double quotes: line 1 column 2 (char 1)后面查看资料才知道是因为字典的 键 位有两个少了引号{q:"python",p:false,s:["python基础教程","pytho...原创 2018-06-16 02:00:11 · 7879 阅读 · 2 评论 -
新手需要知道decode 和 encode 区别【转载】
转自:http://blog.csdn.net/a921800467b/article/details/8579510为什么会报错“UnicodeEncodeError:'ascii' codec can't encode characters in position 0-1: ordinal notin range(128)”?本文就来研究一下这个问题。字符串在Python内部的表示是unico...转载 2018-06-16 01:01:51 · 60173 阅读 · 5 评论 -
python3 区间日期生成列表形式的类方法
import datetimeclass Quriqi(): """取区间日期模块,主要传入两个参数: Quriqi('20180601','20180608').suanriqi() 将会返回list类型 此类用的模块为datetime """ def __init__(self,qishi,jiezhi): self.start...原创 2018-06-08 16:26:25 · 1502 阅读 · 0 评论 -
Scrapy学习之items设计
【settings模块】ITEM_PIPELINES ={} (传入的数据要干什么)IMAGES_URLS_FIELD = '' (去哪里获取url地址)project_dir = os.path.dirname(os.path.abspath(__file__))IMAGES_STORE = "" (将文件存储到哪里去)# 'scrapy.pipelines.images.ImagesPip...原创 2018-06-04 13:25:59 · 2002 阅读 · 0 评论 -
python编程·从入门到实践--随记
《python编程·从入门到实践》.upper() = 全部大写.lower() = 全部小写.title() = 首字母大写.rstrip() = 暂时性删除末尾字符(默认空格).lstrip() = 暂时性删除首部字符(默认空格).strip() = 暂时性删除首尾字符(默认空格).append() = 列表...原创 2018-05-18 10:13:16 · 272 阅读 · 0 评论 -
Scrapy 服务器远程更新爬虫xpath或css规则,利用ElementTree远程解析XML节点
我们在做分布式爬虫的时候有些网站可能因为规则变更使得我们爬虫也要跟着变更规则,如果部署了很多的话更新规则就会是个头大的问题,慢慢去一个一个更新爬虫规则实在是太累了,所以我就想到了用xml来做规则,让爬虫去读取一个远程xml就可以了;我们后期维护的时候也只用维护这个xml文件即可。我用的是scrapy-redis做的分布式概述:1、主要是通过request读取远程xml...原创 2019-03-31 22:30:40 · 525 阅读 · 1 评论