- 博客(11)
- 收藏
- 关注
原创 [10]个人学习python:设置代理IP,学习全局代理与临时代理
代码如下:#临时代理 # -*- coding: utf-8 -* import urllib.request,random proxy_iplist=['122.114.31.177:808','61.135.217.7:80'] proxy_ip=random.choice(proxy_iplist) #随机选择一个代理 url=('http://www...
2018-06-05 22:27:53 4140
原创 [9]个人学习python:爬豆瓣电影,处理‘加载更多’动态页面
先分析:1、网址是https://movie.douban.com/tag/#/,Network-XHR,刷新并筛选,找到第一条,然后点击页面'加载更多',找到第二条,以此类推; 点击找到的动态信息,找到General-Request URL,就是动态的实际地址了: https://movie.douban.com/j/new_search_subjects?sort=T&rang...
2018-05-29 22:05:59 1556
原创 [8]个人学习python:爬取豆瓣首页所有图片
代码如下:# -*- coding: utf-8 -* import urllib.request,socket,re,sys,os savepath=r'C:\\Users\\Administrator\\PycharmProjects\\untitled\\venv1\\image\\' def saveimage(url): if not os.path.isdir(savepath...
2018-05-28 22:16:17 407
原创 [7]个人学习python:爬取百度贴吧图片,并保存到本地目录
代码如下:# -*- coding: utf-8 -* import urllib.request,re url='http://tieba.baidu.com/p/5665019988/' page=urllib.request.urlopen(url,timeout = 2) html=page.read() html=html.decode('utf-8') ...
2018-05-28 21:50:38 541
原创 [6]个人学习python:爬取CSDN的Oracle论坛,并保存到本地txt文档
代码如下:# -*- coding: utf-8 -* import urllib.request,socket,re,sys,os,time,requests from lxml import etree with open(r'C:\Users\admin\Desktop\practice_csdn.txt','w') as f: for p in range(1,3): ...
2018-05-27 23:03:23 259
原创 [5]个人学习python:伪装成浏览器
代码如下:# -*- coding: utf-8 -* import urllib.request,requests,io,sys def save(data,filename,flag): path=r'C:\Users\admin\Desktop\{}.txt'.format(filename) if flag=='wb': f=open(path,mode='...
2018-05-27 21:26:45 583
原创 [0]个人学习python:前期准备工作
1、去官网下载Python3.X版本: (1)网址为:https://www.python.org/downloads/windows/,建议选择3.X版本。 (2)64位电脑选择Download Windows x86-64 executable installer,32位电脑选择Download Windows x86 executable installer,exec...
2018-05-26 21:09:59 1426
原创 [3]个人学习python:爬取豆瓣单本图书,深入学习取数
代码如下:# -*- coding: utf-8 -* import requests,time from lxml import etree url='https://book.douban.com/top250' html=requests.get(url).text s=etree.HTML(html) title1=s.xpath('//*[@id="content"]/div/div[1...
2018-05-23 18:28:23 183
原创 [2]个人学习python:爬取豆瓣单个电影
代码如下:# -*- coding: utf-8 -* import requests,time from lxml import etree url='https://movie.douban.com/subject/1849031/?from=subject-page' html=requests.get(url).text #此处获取html网页代...
2018-05-23 10:11:30 509
原创 [1]个人学习python:爬取百度搜索网页
import requests url = 'https://www.baidu.com/' data = requests.get(url) data.encoding='utf-8' print('http请求的状态:',data.status_code) print('http的文本内容:',data.text) print('http的编码方式:',data.encoding)...
2018-05-21 08:49:08 381
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人