自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

转载 关于html的多行匹配,正则re.S的使用(爬取豆瓣电影短评)

首先本文参考了上述两篇文章,爬取豆瓣电影栏目上“看不见的客人短评”,并将其导入cvs。 关于正则匹配多行html,实际上需要在原有基础上加入re.S。 这样,每行行末尾将通过“\n+空格”的形式呈现出来。 而实际上匹配可以通过.*?直接过滤掉。 详情可看第13行。 另说python的pandas模块,使用DataFrame的to_cvs导入还需要进行编码转换,避免乱码。 ...

2017-10-17 10:17:00 167

转载 关于正则表达式的完整整理(python)

上传图片,以示清白。 正则(Regular Expression) 在python的运用当中,正则表达式可是非常重要的,无论是进行爬虫,或者是进行某些判定,都必不可少,接下来,我们谈谈正则表达式。望各位兄多多指教。 1 import re 2 result=re.match("abc",'abc.cm') 3 print(result.group()) 就是这样,...

2017-10-15 21:19:00 257

转载 判断网页能否打开?python

1 #!/usr/bin/env python 2 # coding=utf-8 3 import requests 4 5 headers = { 6 "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko...

2017-10-15 15:23:00 395

转载 利用python爬取点小图片,满足私欲(爬虫)

1 import requests 2 import re 3 import os,sys 4 5 6 7 8 def get_url(page,headers): 9 url='http://www.zbjuran.com/mei/xinggan/list_13_%s.html'%(page) 10 data=reques...

2017-10-15 15:16:00 215

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除