def page_url_cont():
# 可以传入2个变量,一个用于搜索关键字,一个用于翻页
# queryWord word 对应关键字
# pn 对应翻页
data = {‘tn’: ‘resultjson_com’,
‘ipn’: ‘rj’,
‘ct’: ‘201326592’,
‘is’: ‘’,
‘fp’: ‘result’,
‘queryWord’: ‘美女’,
‘cl’: 2,
‘lm’: -1,
‘ie’: ‘utf-8’,
‘oe’: ‘utf-8’,
‘adpicid’:‘’,
‘st’: ‘-1’,
‘z’: ‘’,
‘ic’: 0,
‘word’: ‘美女’,
‘s’: ‘’,
‘se’: ‘’,
‘tab’: ‘’,
‘width’: ‘’,
‘height’: ‘’,
‘face’: 0,
‘istype’: 2,
‘qc’: ‘’,
‘nc’: 1,
‘fr’: ‘’,
‘pn’: 0,
‘rn’: 30,
‘gsm’: 96
}
# 拼接url
url = ‘http://image.baidu.com/search/index?’ + urlencode(data)
# 返回拼接好的url
return url
# 获取图片链接返回一个列表
def get_images_url(response):
# 用jsondata保存 用json.loads的方法处理返回回来的类似字典的格式
jsondata = json.loads(response.text)
# 创建一个空的列表,用于处理提取出来的Url
image_url = []
# 检查字典里是否包含data这个关键字
if ‘data’ in jsondata.keys():
# 从字典里面提取出data这个键的值
for items in jsondata.get(‘data’):
# 从items这个自动中提取thumbURL的值,返回一个url
url = items.get(‘thumbURL’)
# 空列表添加提取出来的url
image_url.append(url)
# 添加完成后统一返回
return image_url
# 下载用的函数
def downimage(image_url):
# 从我们传入的url列表重依次取出url
for url in image_url:
# 异常处理
try:
# 请求我们图片地址得到返回
response = requests.get(url)
# 判断响应码
if response.status_code == 200:
# 用切片的方法给图片命名
name = url.split(‘,’)[-1].split(‘&’)[0]
# 以字节的方式读取读取数据
image = response.content
# 创建一个空白的文件,以二进制的方式写入数据
# 给创建出来的这个文件取个别名叫f
with open(‘./images/%s.jpg’ % name, ‘wb’) as f:
# 写入我们的2进制数据
f.write(image)
except:
print(‘当前请求出错’)
def main():
url = page_url_cont()
# 获得的响应 被赋值 GEI请求赋值
response = requests.get(url)
# 用json格式读取返回的文本数据
# print(jsondata.keys())
image_url = get_images_url(response)
# print(image_url)
# 传入我们的下载器
downimage(image_url)
if name == ‘main’:
main()
**利用Python批量下载斗图网表情包**
# encoding: utf-8
# 第一步:导入第三方库
import requests # 请求网页
from lxml import etree # 解析网页
from urllib import request # 下载内容
import os # 系统包
# 第二步:抓取目标网页
def parse_page(url):
# 2.1简单的反爬虫机制
HEADERS = {‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36’}
# 2.2获取服务器响应
# 获取请求响应的状态码
response = requests.get(url, headers=HEADERS)
# 2.3 从响应里提取出网页
# 获取整个网页
text = response.text
# 将抓取的网页作为参数返回
return text
# 第三步:解析网页获取数据
def page_list(text):
# 3.1 将网页保存在HTML对象里
html = etree.HTML(text) # 把网页保存在HTML对象里,便于对数据进行提取
# 3.2 从网页对象根据一定的规则提取数据
imgs = html.xpath(“//div[@class=‘page-content text-center’]//a//img”)
# 获取所有的表情图片以对象的形式保存在列表里
return imgs
def main():
# 根据URL的规则对URL进行循环,获取多页URL,并传给parse_page()进行抓取数据
for x in range(1, 11):
url = “http://www.doutula.com/photo/list/?page=%d” % x
# 调用parse_page()函数并把url给进去
text=parse_page(url)
# 接收parse_page()返回的网页,并传给page_list()函数进行解析
imgs = page_list(text)
# 3.3 对列表里的img对象进行提取
for img in imgs:
# try… except 对程序进行异常处理,避免因为其他原因报错
try:
# 3.4获取所有表情的URL并保存在列表里
imgurl = img.xpath(“.//@data-original”)
# 3.5从列表里提取出表情的URL,至于为啥不取零,列表中有空值,取零报错
for img_url in imgurl:
# print(img_url)
# 分割后缀名:.jpg .png
# 3.6对表情的URL进行处理,提取出表情图片的格式,用于组成表情的名字
suffix = os.path.splitext(img_url)[1]
suffix = suffix.split(“!”)[0]
# 3.7获取表情的名字
alt = img.xpath(“.//@alt”)[0]
# alt = re.sub(r’[,。??,/\·]‘,’',alt) #利用正则表达式对表情名字中存在的特殊字符进行处理
# 3.8用 alt+suffix组成表情的新名字
img_name = alt + suffix
# 第四步:计算机代替下载
# 使用request.urlretrieve()对表情进行下载并保存在images文件里
request.urlretrieve(img_url, ‘images/’ + img_name)
# 打印出那些表情已经下载
print(img_name + ‘下载完毕!’)
except:
print(“表情报错”)
# 执行函数
if name == ‘main’:
main()
**模拟登陆京东**
# -- coding:utf-8 --
import time
import requests
from bs4 import BeautifulSoup
class JD_crawl:
def init(self, username, password):
self.headers = {
‘User-Agent’: ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36’
’ (KHTML, like Gecko) Chrome/62.0.3202.89 Safari/537.36’,
‘Referer’: ‘https://www.jd.com/’,
}
self.login_url = “https://passport.jd.com/new/login.aspx”
self.post_url = “https://passport.jd.com/uc/loginService”
self.auth_url = “https://passport.jd.com/uc/showAuthCode”
self.session = requests.session()
self.username = username
self.password = password
def get_login_info(self):
html = self.session.get(self.login_url, headers=self.headers).content
soup = BeautifulSoup(html, ‘lxml’)
uuid = soup.select(‘#uuid’)[0].get(‘value’)
eid = soup.select(‘#eid’)[0].get(‘value’)
fp = soup.select(‘input[name=“fp”]’)[0].get(‘value’) # session id
_t = soup.select(‘input[name=“_t”]’)[0].get(‘value’) # token
login_type = soup.select(‘input[name=“loginType”]’)[0].get(‘value’)
pub_key = soup.select(‘input[name=“pubKey”]’)[0].get(‘value’)
sa_token = soup.select(‘input[name=“sa_token”]’)[0].get(‘value’)
auth_page = self.session.post(self.auth_url,
data={‘loginName’: self.username, ‘nloginpwd’: self.password}).text
if ‘true’ in auth_page:
auth_code_url = soup.select(‘#JD_Verification1’)[0].get(‘src2’)
auth_code = str(self.get_auth_img(auth_code_url))
else:
auth_code = ‘’
data = {
‘uuid’: uuid,
‘eid’: eid,
‘fp’: fp,
‘_t’: _t,
‘loginType’: login_type,
‘loginname’: self.username,
‘nloginpwd’: self.password,
‘chkRememberMe’: True,
‘pubKey’: pub_key,
‘sa_token’: sa_token,
‘authcode’: auth_code
}
return data
def get_auth_img(self, url):
auth_code_url = ‘http:{}&yys={}’.format(url, str(int(time.time()*1000)))
auth_img = self.session.get(auth_code_url, headers=self.headers)
with open(‘authcode.jpg’, ‘wb’) as f:
f.write(auth_img.content)
code_typein = input(‘请根据下载图片输入验证码:’)
return code_typein
def login(self):
data = self.get_login_info()
headers = {
‘Referer’: self.post_url,
‘User-Agent’: ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36’
’ (KHTML, like Gecko) Chrome/62.0.3202.89 Safari/537.36’,
‘X-Requested-With’: ‘XMLHttpRequest’
}
try:
login_page = self.session.post(self.post_url, data=data, headers=headers)
print(login_page.text)
except Exception as e:
print(e)
# self.session.cookies.clear()
def shopping(self):
login = self.session.post(‘https://cart.jd.com/cart.action’, headers=self.headers)
print(login.text)
if name == ‘main’:
un = input(‘请输入京东账号:’)
pwd = input(‘请输入京东密码:’)
jd = JD_crawl(un, pwd)
jd.login()
jd.shopping()
**利用Python爬取喜马拉雅音频文件**
import re
import requests
from lxml import etree
from onexima import Xima
def get_id():
“”“获取排行榜每一本书的信息”“”
main_url = “https://www.ximalaya.com/shangye/top/”
headers = {
“User-Agent”: “Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36”
}
r = requests.get(main_url, headers=headers)
# 获取到当前页面的xml数据
html = etree.HTML(r.content.decode())
# 得到每一本书的位置的信息
div_list = html.xpath(“//div[contains(@class,‘e-2997888007 rrc-album-item’)]”)
all_lsit = [] # 待会把每一本书的音频以字典形式放进列表当中
for div in div_list:
author = {} # 创建一个列表, 我们要获取书的id和书的名字, 并且一一对应
r = div.xpath(“./a/@href”)[0] # 获取到当前书的id所在信息, 数据为: /renwen/4859823/
print®
# 所以得通过正则把正确的id取出来, id是为了传入正确的id, 得到正确的json数据
author[‘id’] = re.search(r’/.?/(.)/', r).group(1)
author[‘book_name’] = div.xpath(“./a/div[3]/div[1]/span/text()”)[0]
# 向列表中传入每一个音频的信息
all_lsit.append(author)
print(all_lsit)
return all_lsit
# 调用函数得到所有每一本书的信息, 是一个列表类型
all_lsit = get_id()
for i in all_lsit:
# 遍历列表, 把每本书对应的id和对应的书名传到类里面去
x = Xima(i[‘id’], i[‘book_name’])
x.run()
**利用Python爬取妹子图**
import requests
from bs4 import BeautifulSoup
import os
如果你也是看准了Python,想自学Python,在这里为大家准备了丰厚的免费学习大礼包,带大家一起学习,给大家剖析Python兼职、就业行情前景的这些事儿。
一、Python所有方向的学习路线
Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
二、学习软件
工欲善其必先利其器。学习Python常用的开发软件都在这里了,给大家节省了很多时间。
三、全套PDF电子书
书籍的好处就在于权威和体系健全,刚开始学习的时候你可以只看视频或者听某个人讲课,但等你学完之后,你觉得你掌握了,这时候建议还是得去看一下书籍,看权威技术书籍也是每个程序员必经之路。
四、入门学习视频
我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。
四、实战案例
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
五、面试资料
我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。
成为一个Python程序员专家或许需要花费数年时间,但是打下坚实的基础只要几周就可以,如果你按照我提供的学习路线以及资料有意识地去实践,你就有很大可能成功!
最后祝你好运!!!
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!