- 博客(11)
- 问答 (1)
- 收藏
- 关注
原创 马蜂窝分享
马蜂窝爬虫分享今天早上爬马蜂窝的数据,还在检查报错的时候,就发现自己的ip被ban,真心惨,数据没拿到,ip还被封,新手太天真,“挑逗”这种大型内容分享平台的反爬虫,因此想做一个简单的总结,希望自己的经验可以对大家,以及自己以后的爬虫之旅有帮助user_agent+cookie,不够使1.这次并不是完全的裸爬。稍微带了点伪装,还是被发现了。马蜂窝必带cookie,不然会报502。但是它的co...
2020-03-14 08:30:39 234
原创 百度te吧
百度贴吧解决了上一次为解决的问题,引入selenium可以实现对动态页面的爬取,代码复杂化了,有很多步骤可以优化百度系列:上一次的百度贴吧1.0爬虫百度贴吧实现翻译下小功能,里面的问题应该也可以用同样的思路被解决# -*- coding: utf-8 -*-"""Created on Sat Feb 29 15:33:00 2020@author: Administrator"...
2020-03-05 16:13:50 284
原创 bili弹幕爬
我爱哔哩哔哩总结:①正则是盲点,最近在想办法努力突破②python提取xml文件中的字段,可用beautifulsoup包,nice# -*- coding: utf-8 -*-"""Created on Sun Mar 1 18:11:56 2020@author: Administrator"""import requestsimport jsonimport re...
2020-03-03 23:35:58 409
原创 简单网站爬取:糗事百科
简单网站爬取:糗事百科总结遇到的问题:①xpah在响应页面定位时:首先分组,分组后的子元素定位,是在当前定位内进行搜寻,因此点非常重要,他表示在当前目录中进行定位,不然可能出现,分组内爬取的内容一样,循环无效-----------------************************=-------------------------错误代码示例:item["u-user-na...
2020-03-01 16:45:58 148
原创 百度贴吧爬虫
百度贴吧爬虫问题总结1. 问题1response.content.decode() **解决**这里有不少小伙伴会遇到编码问题,需要从本质理解编码对后续代码可能产生的影响, ①后续xpath可接受的数据类型 ②xpaht在定位元素时,自己输入的字符与网页响应字符可能存在差异; ③文件写入时,txt默认编码格式与爬取文件的编码格式冲突。 ***如果在这三个方面加以注意,后面应该不...
2020-03-01 12:03:43 625
原创 豆瓣影视资料数据爬取--多类目
豆瓣数据爬取爬取韩剧、英剧…的豆瓣影视资料# -*- coding: utf-8 -*-"""Created on Thu Feb 27 10:26:36 2020@author: Administrator"""import requestsimport jsonimport osos.chdir(r"H:\01\spyder")class Douban: de...
2020-02-27 15:39:29 190
原创 爬虫之实现百度翻译小功能
小白求指点:这里没有办法获取百度翻译头部文件中的不变 From Data,应该如何思考,来成功访问百度翻译的接口import requestsimport osimport jsonos.chdir(r"H:\01\spyder")url_fanyi = "https://fanyi.baidu.com/v2transapi?from=zh&to=en"headers = {'...
2020-02-26 11:52:02 282
原创 requests模块学习
requestsresponse = request.get(url)print(response) // 获取请求状态码response.textresponse.encoding // 推测网页编码response.content // byte形式显示原始网页response.content.decode() //解码p = requests.get("https:...
2020-02-26 10:42:41 111
原创 飞机大战基本功能实现
基本功能包括:玩家飞机显示玩家发射子弹敌机显示敌机发射子弹# -*- coding: utf-8 -*-"""Created on Mon Feb 24 08:09:08 2020@author: Administrator"""import pygame,sys,time,randomfrom pygame.locals import *class PlayerP...
2020-02-24 11:28:03 1167
原创 Linux系统学习
03 系统信息相关命令时间和时期date // 查看系统时间 cal & cal -y // 查看系统日历 或查看一年的日历磁盘和目录空间df -h // 显示磁盘剩余空间 du -h[目录名] // 显示目录的空间占用【-h :以人性化的格式显示文件大小】进程信息ps aux // 查看所有执行程序的详细情况;a选项可显示其他用户的进程,u显示详细进程...
2020-02-19 09:36:25 73
原创 1.1 linux系统学习
**Ⅰ Linux终端命令学习**一 常见终端命令01 查看当前文件夹下的内容02 查看当前所在文件夹03 切换文件夹04 如果文件不存在,新建文件05 创建目录06 删除指定的文件名二 终端命令格式command [-options] [parameter]// []表示可选项command:命令名,相应功能的英文单词或单词缩写[-options]:选项,可用来对命...
2020-02-18 15:47:45 79
空空如也
数据分析初学者有问题想问
2019-06-28
TA创建的收藏夹 TA关注的收藏夹
TA关注的人