基础爬虫及进阶
楼上little黑
我要不写点东西,他就说我偷懒,没写签名
展开
-
基础3·360图片一张的抓取(图片保存(二进制))
参考点:图片保存import requestsurl='http://pic75.nipic.com/file/20150821/9448607_145742365000_2.jpg'#url来自图片鼠标右击属性r=requests.get(url)with open("C://Users/Administrator/Desktop/amm.png",'wb') as f: #wb 以二...原创 2019-04-17 08:42:39 · 520 阅读 · 0 评论 -
进阶2·调用有道翻译接口实现小型软件开发(post请求的简单使用,tkinter库下的用户界面设置,json数据的处理)
import json,requestsfrom tkinter import*def Translate(): content=entry1.get() #从输入框一种把输入内容拿过来放到下面content url="http://xxxx.com ...原创 2019-04-21 17:24:01 · 317 阅读 · 0 评论 -
进阶3·超级课程表核心实现(selenium的使用,验证码识别)
from selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsimport pprint, timefrom selenium.common.exceptions import NoSuchElementExceptionfrom lxml import etreedef req...原创 2019-04-26 18:55:08 · 831 阅读 · 1 评论 -
进阶4·淘宝商品爬取与分析(selenium,网页元素无法定位的四个解决办法)
淘宝估计是爬虫界一直想要去尝试的网页,小彬自学爬虫已有一段时间,在掌握selenium后就一直想要本着学习交流的态度和淘宝程序员叔叔切磋一下,嘻嘻。唉,没想到这一切磋就耗费了我一天时间,不过还好,最后也小有成就,并且这次收获也不少,尤其对于网页的反蜘蛛机制。我先梳理下遇到的困难:1·网页登入,淘宝账号登入需要滑动验证码;支付宝账号登入,却找不到密码输入框标签。唉,愁死个人了2·成功登入后,...原创 2019-05-01 23:28:15 · 2722 阅读 · 0 评论 -
基础10·360图片一页面的抓取(os库下新建多层文件夹,json转换dic)
import requests, pprint, time, jsonfrom lxml import etreedef get_text(url): headers = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like G...原创 2019-04-24 22:37:51 · 159 阅读 · 0 评论 -
基础9·最好大学网大学排名抓取(BeautifulSoup库,re库的使用,对应排名的输出)
import requests, time, refrom bs4 import BeautifulSoupfrom lxml import etreedef get_text(url): try: r = requests.get(url) r.encoding = r.apparent_encoding ret = r.tex...原创 2019-04-24 16:13:47 · 459 阅读 · 0 评论 -
基础8·起点小说一页爬取(xpath的使用,re库下的文本修改)
分析网页源代码发现,所需的文本储存在div标签下的p标签,并且p标签基本上只储存了想要获取的内容所以调用lxml会更省力import requests,time,refrom lxml import etreedef get_text(url): try: r=requests.get(url,timeout=30) r.raise_for_s...原创 2019-04-24 12:38:36 · 536 阅读 · 0 评论 -
基础7·猫眼电影排名爬取(多个网站的循环爬取)
import requests,re,timepages=[0,10,20,30,40,50,60,70,80,90]for page in pages: headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chro...原创 2019-04-22 17:35:47 · 8546 阅读 · 0 评论 -
基础6·登入知乎(cookie的加入及其在开发者工具里面的位置)
import requests,pprinturl="https://www.zhihu.com/question/268776431/answer/636026533"headers={ 'cookie':'_zap=817004a4-48cd-4d3e-bca1-27cbba533d52; d_c0="AHDkaADIEA-PTrT1Az_3EAea0_HOubh8LJ8=|1...原创 2019-04-22 17:06:41 · 759 阅读 · 0 评论 -
基础13·豆瓣热门电影top250抓取(csv文件的使用)
import requests, json, timenum = [0, 51, 101, 151, 201, ]for i in num: url = "https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&page_limit=50&page_start=...原创 2019-04-26 20:12:58 · 1387 阅读 · 0 评论 -
基础12·登入CSDN(selenium的使用,360浏览器的打开)
from selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsimport timedef login(email, password): # 1. 驱动 __browser_url = r'D:\软件安装地址\360Chrome\Chrome\Application\...原创 2019-04-26 19:46:58 · 875 阅读 · 0 评论 -
基础4·腾讯视频一小段的爬取(MP4保存(二进制),MP4文件在开发者工具里的位置)
参考点MP4保存(二进制),MP4文件在开发者工具里的位置import requestsurl="http://xxxxx.ts or .mp4" #视频后缀一般为mp4 或者 ts 可用该方法筛选urlr=requests.get(url)with open ("C://Users/...原创 2019-04-17 16:14:22 · 1402 阅读 · 0 评论 -
基础11·今日头条NBA图片抓取(Ajax渲染页面的抓取,URL中params的添加)
import requests, pprint, json, time, osdef get_text(url, offset): headers = { 'accept': 'application/json, text/javascript', 'accept-encoding': 'gzip, deflate, br', 'ac...原创 2019-04-25 23:03:16 · 498 阅读 · 0 评论 -
基础1·起点小说一页的爬取(文本的保存(字符串),re的简单使用,爬取文本中的\ufeff,\xa0,\u3000,\n的处理方法)
参考点:re的简单使用,爬取文本中的\ufeff,\xa0,\u3000的处理方法import requests,reurl='https://read.qidian.com/chapter/OvOS0IGyGEkuwUjttRcGug2/Xou9eyf8imhOBDFlr9quQA2'headers = { 'User-Agent': 'Mozilla/5.0 (...原创 2019-04-17 08:39:23 · 783 阅读 · 0 评论 -
基础5·2345电影排名的爬取(返回数据乱码的解决)
import re,requests,jsonurl='http://xxx.com'headers = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari...原创 2019-04-21 18:01:51 · 972 阅读 · 0 评论 -
基础2·QQ音乐一首歌曲的爬取(MP3保存(二进制),headers的加入,MP3在开发者工具里的位置)
import requestsurl='http://isure.stream.qqmusic.qq.com/C400004eEjY63xQrRs.m4a?guid=1339751607&vkey=A10C739BF34669C53AE26EA49C77259338BE2A711E971EBCC1927AFC542616AEF86262951BF77F8AE4E1874533502350...原创 2019-04-17 08:41:13 · 567 阅读 · 0 评论 -
进阶1·调用高德API获取交通数据(多个URL访问,字典提取,while无限循环下的程序间断运行)
标题:调用高德开放API获取实时交通数据想法及思路现在大型网站都提供了好多开放API,根据这些开放API可以做一些比较有趣的东西,本次调用高德开放api实时获取你想知道的道路拥堵状况工具及技术:Python,pycharm,爬虫思路:1~通过申请高德开发者获取api及key2~运用爬虫分析出获取的数据3~提取有用信息4~数据保存代码// import requestsim...原创 2019-04-11 22:14:30 · 2993 阅读 · 2 评论