基础爬虫及进阶_楼上little黑的博客-CSDN博客

基础爬虫及进阶

关注

关注数：文章数：17 文章阅读量：24237 文章收藏量：27

作者: 楼上little黑

我要不写点东西，他就说我偷懒，没写签名

展开

基础3·360图片一张的抓取（图片保存（二进制））

参考点：图片保存import requestsurl='http://pic75.nipic.com/file/20150821/9448607_145742365000_2.jpg'#url来自图片鼠标右击属性r=requests.get(url)with open("C://Users/Administrator/Desktop/amm.png",'wb') as f: #wb 以二...

原创 2019-04-17 08:42:39 · 520 阅读 · 0 评论
进阶2·调用有道翻译接口实现小型软件开发（post请求的简单使用，tkinter库下的用户界面设置，json数据的处理）

import json,requestsfrom tkinter import*def Translate(): content=entry1.get() #从输入框一种把输入内容拿过来放到下面content url="http://xxxx.com ...

原创 2019-04-21 17:24:01 · 317 阅读 · 0 评论
进阶3·超级课程表核心实现（selenium的使用，验证码识别）

from selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsimport pprint, timefrom selenium.common.exceptions import NoSuchElementExceptionfrom lxml import etreedef req...

原创 2019-04-26 18:55:08 · 831 阅读 · 1 评论
进阶4·淘宝商品爬取与分析（selenium，网页元素无法定位的四个解决办法）

淘宝估计是爬虫界一直想要去尝试的网页，小彬自学爬虫已有一段时间，在掌握selenium后就一直想要本着学习交流的态度和淘宝程序员叔叔切磋一下，嘻嘻。唉，没想到这一切磋就耗费了我一天时间，不过还好，最后也小有成就，并且这次收获也不少，尤其对于网页的反蜘蛛机制。我先梳理下遇到的困难：1·网页登入，淘宝账号登入需要滑动验证码；支付宝账号登入，却找不到密码输入框标签。唉，愁死个人了2·成功登入后，...

原创 2019-05-01 23:28:15 · 2722 阅读 · 0 评论
基础10·360图片一页面的抓取（os库下新建多层文件夹，json转换dic）

import requests, pprint, time, jsonfrom lxml import etreedef get_text(url): headers = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like G...

原创 2019-04-24 22:37:51 · 159 阅读 · 0 评论
基础9·最好大学网大学排名抓取（BeautifulSoup库，re库的使用，对应排名的输出）

import requests, time, refrom bs4 import BeautifulSoupfrom lxml import etreedef get_text(url): try: r = requests.get(url) r.encoding = r.apparent_encoding ret = r.tex...

原创 2019-04-24 16:13:47 · 459 阅读 · 0 评论
基础8·起点小说一页爬取（xpath的使用，re库下的文本修改）

分析网页源代码发现，所需的文本储存在div标签下的p标签，并且p标签基本上只储存了想要获取的内容所以调用lxml会更省力import requests,time,refrom lxml import etreedef get_text(url): try: r=requests.get(url,timeout=30) r.raise_for_s...

原创 2019-04-24 12:38:36 · 536 阅读 · 0 评论
基础7·猫眼电影排名爬取（多个网站的循环爬取）

import requests,re,timepages=[0,10,20,30,40,50,60,70,80,90]for page in pages: headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chro...

原创 2019-04-22 17:35:47 · 8546 阅读 · 0 评论
基础6·登入知乎（cookie的加入及其在开发者工具里面的位置）

import requests,pprinturl="https://www.zhihu.com/question/268776431/answer/636026533"headers={ 'cookie':'_zap=817004a4-48cd-4d3e-bca1-27cbba533d52; d_c0="AHDkaADIEA-PTrT1Az_3EAea0_HOubh8LJ8=|1...

原创 2019-04-22 17:06:41 · 759 阅读 · 0 评论
基础13·豆瓣热门电影top250抓取（csv文件的使用）

import requests, json, timenum = [0, 51, 101, 151, 201, ]for i in num: url = "https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&page_limit=50&page_start=...

原创 2019-04-26 20:12:58 · 1387 阅读 · 0 评论
基础12·登入CSDN（selenium的使用，360浏览器的打开）

from selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsimport timedef login(email, password): # 1. 驱动 __browser_url = r'D:\软件安装地址\360Chrome\Chrome\Application\...

原创 2019-04-26 19:46:58 · 875 阅读 · 0 评论
基础4·腾讯视频一小段的爬取（MP4保存（二进制），MP4文件在开发者工具里的位置）

参考点MP4保存（二进制），MP4文件在开发者工具里的位置import requestsurl="http://xxxxx.ts or .mp4" #视频后缀一般为mp4 或者 ts 可用该方法筛选urlr=requests.get(url)with open ("C://Users/...

原创 2019-04-17 16:14:22 · 1402 阅读 · 0 评论
基础11·今日头条NBA图片抓取（Ajax渲染页面的抓取，URL中params的添加）

import requests, pprint, json, time, osdef get_text(url, offset): headers = { 'accept': 'application/json, text/javascript', 'accept-encoding': 'gzip, deflate, br', 'ac...

原创 2019-04-25 23:03:16 · 498 阅读 · 0 评论
基础1·起点小说一页的爬取（文本的保存（字符串），re的简单使用，爬取文本中的\ufeff，\xa0，\u3000，\n的处理方法）

参考点：re的简单使用，爬取文本中的\ufeff，\xa0，\u3000的处理方法import requests,reurl='https://read.qidian.com/chapter/OvOS0IGyGEkuwUjttRcGug2/Xou9eyf8imhOBDFlr9quQA2'headers = { 'User-Agent': 'Mozilla/5.0 (...

原创 2019-04-17 08:39:23 · 783 阅读 · 0 评论
基础5·2345电影排名的爬取（返回数据乱码的解决）

import re,requests,jsonurl='http://xxx.com'headers = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari...

原创 2019-04-21 18:01:51 · 972 阅读 · 0 评论
基础2·QQ音乐一首歌曲的爬取（MP3保存（二进制），headers的加入，MP3在开发者工具里的位置）

import requestsurl='http://isure.stream.qqmusic.qq.com/C400004eEjY63xQrRs.m4a?guid=1339751607&vkey=A10C739BF34669C53AE26EA49C77259338BE2A711E971EBCC1927AFC542616AEF86262951BF77F8AE4E1874533502350...

原创 2019-04-17 08:41:13 · 567 阅读 · 0 评论
进阶1·调用高德API获取交通数据(多个URL访问,字典提取,while无限循环下的程序间断运行)

标题：调用高德开放API获取实时交通数据想法及思路现在大型网站都提供了好多开放API，根据这些开放API可以做一些比较有趣的东西，本次调用高德开放api实时获取你想知道的道路拥堵状况工具及技术：Python，pycharm，爬虫思路：1~通过申请高德开发者获取api及key2~运用爬虫分析出获取的数据3~提取有用信息4~数据保存代码// import requestsim...

原创 2019-04-11 22:14:30 · 2993 阅读 · 2 评论

基础爬虫及进阶

作者: 楼上little黑

基础3·360图片一张的抓取（图片保存（二进制））

进阶2·调用有道翻译接口实现小型软件开发（post请求的简单使用，tkinter库下的用户界面设置，json数据的处理）

进阶3·超级课程表核心实现（selenium的使用，验证码识别）

进阶4·淘宝商品爬取与分析（selenium，网页元素无法定位的四个解决办法）

基础10·360图片一页面的抓取（os库下新建多层文件夹，json转换dic）

基础9·最好大学网大学排名抓取（BeautifulSoup库，re库的使用，对应排名的输出）

基础8·起点小说一页爬取（xpath的使用，re库下的文本修改）

基础7·猫眼电影排名爬取（多个网站的循环爬取）

基础6·登入知乎（cookie的加入及其在开发者工具里面的位置）

基础13·豆瓣热门电影top250抓取（csv文件的使用）

基础12·登入CSDN（selenium的使用，360浏览器的打开）

基础4·腾讯视频一小段的爬取（MP4保存（二进制），MP4文件在开发者工具里的位置）

基础11·今日头条NBA图片抓取（Ajax渲染页面的抓取，URL中params的添加）

基础1·起点小说一页的爬取（文本的保存（字符串），re的简单使用，爬取文本中的\ufeff，\xa0，\u3000，\n的处理方法）

基础5·2345电影排名的爬取（返回数据乱码的解决）

基础2·QQ音乐一首歌曲的爬取（MP3保存（二进制），headers的加入，MP3在开发者工具里的位置）

进阶1·调用高德API获取交通数据(多个URL访问,字典提取,while无限循环下的程序间断运行)