自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 python爬虫--scrapy爬取腾讯招聘网站

背景:虚拟机Ubuntu16.04,爬取https://hr.tencent.com/招聘信息! 第一步:新建项目: scrapy startproject tencent 第二步:编写items文件 1 # -*- coding: utf-8 -*- 2 3 # Define here the models for your scraped items 4 # ...

2018-02-24 23:42:31 4441 2

原创 python爬虫--xpath结合re同时爬取文字与图片

还是老家的旅游网址:http://www.patour.cn/site/pananzxw/tcgl/index.html,将这些特产的图片及其介绍都爬取下来! 源码: 1 # -*- coding:utf-8 -*- 2 import urllib2 3 import re 4 from lxml import etree 5 6 class Spider: 7 ...

2018-02-16 16:06:26 3387 1

原创 python爬虫--正则爬取内涵段子文字

背景:虚拟机ubuntu16.04 爬取内涵段子文字,replace处理字符串 要求,根据客户要求要爬取的page数,将段子爬取下来: 源码如下: 1 # -*- coding:utf-8 -*-   2    3 import urllib2   4 import re   5    6 class Spider:   7     def __init__(self):   8 ...

2018-02-13 20:20:21 1781

原创 python爬虫--re结合xpath爬取图片

背景:虚拟机ubuntu16.04利用xpath与爬取www.uumnt.cc/图片 当然,我们要爬取的是动物板块! 程序分析,将动物板块一页一页分析拿取出来,然后拿去各种动物页面的链接,然后对链接分析拿取图片(每个链接拿取4张图) 效果为: 源码如下:   1 # -*- coding:utf-8 -*- 2 3 #准备爬取https://www.uumn...

2018-02-05 09:01:43 2018

原创 python 正则表达式----练习题目

该篇记录正则表达式的一些内容,后续会一直补充 利用re提取链接内容:   # -*- coding:utf-8 -*- import re #方法一 #ret = re.search(r"www.baidu.com","<p>www.baidu.com</p>") #方法二 #ret = re.search(r".*\Bai\B.*","<p>w

2018-02-01 16:13:48 1538

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除