自从得知了centos里自带python,脑子里整天飞扑棱蛾子,我能用python干点啥
突然想到最近身边的小伙伴们,都在追逐于各色美女
我翻了翻我的电脑,找到了它
一个尘封已久的python程序
我默默的打出了 python --version
啊,久违的python2,真好
上面在扯皮,我们开始,为了能体现操作过程,我在未安装任何python库的电脑上开始
导入这个文件,直接运行,看报错
No module named requests 没有requests模块
这说明啥,说明- -就是没有呗,那咱就安装一个
我默默的输入了 pip install requests
安装pip
先安装扩展源EPEL
yum install epel-release
再安装pip
yum install python-pip
看一下成功了没 pip --version
我骄傲的 再次 执行 pip install requests
我们来运行一下 python myimage.py
- -
成功了= =可是为什么。。。按道理。。还有很多库没导入啊。。为什么没提示我安装,我另一台机子就必须要安装了好多三方库啊,为什么= =算了。。不管了,舔屏重要
缩略图要足够小,才能让你们不流口水
好了好了,代码会给你们的
import requests
import re
import os
url = 'http://pic.netbian.com/4kmeinv/'
r = requests.get(url)
html = r.text
reg = re.compile('<li>.*?<img src="(.*?)".*?</li>')
srcFront = 'http://pic.netbian.com'
srclist = re.findall(reg,html)
path = './4kmeinv/'
if not os.path.exists(path) :
os.makedirs(path)
for i,v in enumerate(srclist):
picurl = srcFront+v
res = requests.get(picurl)
with open(path+str(i+1)+'.jpg',"wb") as f :
f.write(res.content)
f.close
爬豆瓣电影明星图片
需要安装bs4
pip install beautifulsoup4
# -*- encoding:utf-8 -*-
# 方法一,使用urllib.urlretrieve() 方法直接将远程数据下载到本地
import requests
from bs4 import BeautifulSoup
import urllib
import os
#把豆瓣搜索,明星在地址栏,对应的那个数字,填入下面str()的括号内
address = str(1050059)
# 设置获取网页内容的函数
def getHtml(index,number):
# url = "https://movie.douban.com/celebrity/1004572/photos/?type=C&start="+str(index)
url = "https://movie.douban.com/celebrity/"+number+"/photos/?type=C&start=" + str(index)
r = requests.get(url,{"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11"})
soup = BeautifulSoup(r.text,"html.parser")
return soup
# 设置全局images变量
images = []
# 获取首页的图片数量
imgLen = len(getHtml(0,address).find('ul', attrs={'class': "poster-col3 clearfix"}).find_all('img'))
# 设置处理网页内容的函数
def getImages(pageNum,name,number):
#创建文件夹
if os.path.exists(name):
os.rmdir("photos")
else:
os.mkdir(name)
os.chdir(name)
global address,images,imgLen
for k in range(pageNum):
# 1、存储soup对象
eachsoup = getHtml(k*imgLen,number)
# 2、获取图片列表父元素
imageList = eachsoup.find('ul', attrs={'class': "poster-col3 clearfix"})
# 3、获取所有image
# 通过extend方法,还是一个list,如果用append会是多个list,下面的循环的就要额外处理了
images.extend(imageList.find_all('img'))
#3、用循环处理所有li内的具体内容
for i in range(len(images)):
try:
#获取图片后缀名,防止真实网址图片为png,jpg,gif等格式
suffix = images[i]['src'][-3:]
image_name = str(i+1)+'.'+suffix
urllib.urlretrieve(images[i]['src'],image_name)
except Exception:
print('存储有异常')
return
# 爬几页 文件夹名
getImages(1,'bingbing',address)
爬取51job岗位信息
需要安装xlwt
pip install xlwt
# -*- encoding:utf-8 -*-
import urllib2
import re
import xlwt
#获取源码
def get_content(page,job_name):
url = "http://search.51job.com/list/010000,000000,0000,00,9,99,"+job_name+",2,"+str(page)+".html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare="
response = urllib2.urlopen(url)
html = response.read().decode('gbk').encode('utf-8')
return html
# 获取满足正则表达式的爬取目标
def get(html):
pattern = re.compile(r'class="t1 ">.*? <a target="_blank" title="(.*?)".*? <span class="t2"><a target="_blank" title="(.*?)".*?<span class="t3">(.*?)</span>.*?<span class="t4">(.*?)</span>.*? <span class="t5">(.*?)</span>',re.S)#匹配换行符
result = re.findall(pattern,html)
return result
#设置全局的datalist存储爬取的目标
datalist = []
#调用方法获取爬取内容存入datalist
def savaDataToDatalist(page_num,job_name):
for page in range(1,page_num):
html = get_content(page,job_name)
for i in get(html):
data = []
for j in range(0,5):
data.append(i[j])
datalist.append(data)
return
# 将数据保存到excel中
def saveDataToXLS(savepath):
book = xlwt.Workbook(encoding='utf-8', style_compression=0)
sheet = book.add_sheet('51job搜索的职位', cell_overwrite_ok=True)
col = (u'职位', u'公司名称', u'公司地点',u'薪资',u'发布时间')
for i in range(0, 5):
sheet.write(0, i, col[i]) # 列名
i=0
for i in range(0,len(datalist)):
data = datalist[i]
for j in range(0,5):
sheet.write(i+1,j, data[j]) # 数据
book.save(savepath) # 保存
return
def savaAll(job_name,page_num,saved_file_name):
savaDataToDatalist(page_num,job_name)
if('xls' in saved_file_name):
saveDataToXLS(unicode(saved_file_name,'utf8'))
return
savaAll('大数据',3,'大数据职位信息.xls')