python
文章平均质量分 77
做正义的朋友
python
展开
-
fidder/Charles抓包的历程
Python+爬虫+APP抓包最近在搞APP,之前在学校搞过,直接fidder抓包,请求数据,就返回了想要抓的数据,可是,为啥这次值得我写篇博客记录呢?在此,先为自己掬一把辛酸泪。。。说多了都是坑啊!介绍一下,疫情期间闲着,看c盘满满当当不顺眼,Python2到了2020年也不维护了,所以重装个系统吧!好吧,并没有啥因果关系,就是闲的。这下子来因果关系了,重新装fidder吧,度老师有很多...原创 2020-03-24 22:53:55 · 287 阅读 · 1 评论 -
Windows系统Python 安装模块的几种方法
Python安装模块的方法1、如果你用的是pycharm,那么第一种方法很是清晰明了,打开pycharm,点击菜单栏File——>settings——>project:code——>project interpreter 之后点击如下图中圈出来的+号然后再搜索框中填入你想要安装的模块的名字,选中并点击左下方install package,没有出现error那就是安装成...原创 2019-09-30 15:30:55 · 1211 阅读 · 0 评论 -
python爬取淘宝数据遇见的坑
来说说我用python爬取淘宝数据遇见的坑学习python 一年了,总想着找个大网站来练练手,于是乎,我就把眼光放在了马云爸爸的知名大网站——淘宝。可能也是我自己作死的关系,导致淘宝不让我访问了,不但出现滑块验证码,验证码即使通过了也依然不让我访问,莫名想哭怎么办 ,呜哇~~~下面就来讲讲我爬淘宝遇到的坑们一、首先打开了淘宝,想爬商品的基本信息,但是不想爬详情页,就想着在搜索页找找看能...原创 2018-10-20 13:52:04 · 11678 阅读 · 6 评论 -
python爬虫生成词云
python爬虫生成词云只生成词云还是比较简单的,网上教程还是比较多的,在这作为爬虫菜鸟就稍稍献丑献丑,请勿多怪一、首先,我们需要用到的库有 jieba、matplolib、wordcloud。 jieba 是一个python实现的分词库,对中文有着很强大的分词能力。(了解请戳 https://www.cnblogs.com/jiayongji/p/7119065.html)Matplotlib是...原创 2018-05-30 17:54:21 · 6956 阅读 · 0 评论 -
selenium的使用
任务:使用selenium+phantomjs爬取微博内容及评论等实现:学习借鉴崔庆才的博客:https://cuiqingcai.com/2577.html https://cuiqingcai.com/2599.html1、使用的库import timefrom selenium import webdriverimport sysreload(sys)sys.se...原创 2018-01-20 16:40:23 · 319 阅读 · 0 评论 -
利用post请求爬取动态评论
任务:利用post请求爬取动态评论实现: 酒店网站的评论是动态的,是实时更新的,所以在网页源代码里只有一部分,所以要想得到所有的就得在网页的检查元素里(我的是火狐浏览器),右击检查元素,如下图 一般get请求就可以得到网页源代码里边我们想要的,但是不能得到动态信息,所以要用post请求,此时我们需要参数里面的listRequest.hotelIDs,这是为什么呢?因为在网页...原创 2018-01-19 19:07:06 · 882 阅读 · 0 评论 -
将爬取内容导入数据库
任务:将爬去的内容导入数据库实现:1、安装mysql 可以在网上百度到安装包及安装教程,有很多大佬的经验推荐https://jingyan.baidu.com/album/eae07827b2acad1fec54852d.html?picindex=1然后再安装Navicat Premium(可以找这http://rj.baidu.com/soft/detail/24309.html?ald...原创 2018-01-17 18:23:06 · 2290 阅读 · 0 评论 -
bs4的使用
bs4的简单介绍及使用一、 bs4的介绍:Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。Beautiful Soup自动将输入文档转换为Unicode...原创 2018-01-16 19:00:09 · 793 阅读 · 0 评论 -
爬取糗事百科
任务:爬取糗事百科发布者和发布内容实现:糗事百科的段子还是很不错的,刚开始爬虫的同学们可以拿它练练手哦。下面上代码啦,请求头headers是很重要哒,还要注意编码问题呦,这个编码问题可以抽出时间 来专门研究他哟。还有这次的正则有点不太好写,正则很有用的,要学会呦。# -*- coding:utf-8 -*-import urllib2import reimport sysreload(sy...原创 2018-01-15 19:17:19 · 256 阅读 · 0 评论 -
爬网站文字链接及标题
任务:还是那个壁纸网站(就是之前这个啦https://blog.csdn.net/qq_40024605/article/details/79067580),这次要爬壁纸的文字标题及链接并写入文件保存实现:# -*- coding: utf-8 -*import urllibimport re#这个很重要,是能够让导入文件的文字能以中文形式保存,具体可以参考这儿http://blog.cs...原创 2018-01-15 19:03:44 · 404 阅读 · 0 评论 -
爬多页图片
既然能爬单页的图片了,接下来就要爬多页的啦任务:爬取某壁纸网站的壁纸# -*- coding: utf-8 -*import urllibimport redef getHtml(url): page=urllib.urlopen(url) html=page.read() return htmldef getImg(html): print...原创 2018-01-15 18:43:51 · 181 阅读 · 0 评论 -
python爬单页图片
任务:爬下任意贴吧某贴的单页所有图片实现: 我的假期任务之一就是补博客,爬单页图片是学python的第一个任务,对于大牛们来说,可能是小菜一碟,但是偶也是初学者而已,请大家见谅 本人是龙族迷一枚,所以找了个龙族图片吧来爬第一行必不可少 !!! # -*- coding: utf-8 -*#导入模块import urllibimport re#定义函数,定位到我...原创 2018-01-15 18:08:14 · 221 阅读 · 0 评论 -
python scrapy框架用xpath爬爱问知识人
上一篇是用scrapy爬艺龙酒店评论,这次用xpath爬爱问知识人,并导入数据库我需要的是问题和相应的回答,还有相应的URL爱问知识人是这个样子的1、定义items.pyimport scrapyclass SwpItem(scrapy.Item): title = scrapy.Field() content = scrapy.Field() url = scrapy...原创 2017-11-25 16:58:26 · 334 阅读 · 0 评论 -
python scrapy框架爬艺龙动态评论
python scrapy框架爬艺龙动态评论 本人用的是python2.71、安装好scrapy安装scrapy 网上都有教程(附:http://cuiqingcai.com/912.html)安装好scrapy之后,在cmd命令行代码的目录下运行scrapy startproject yourprojectname该命令将会创建包含下列内容的目录scrapy.cfg ...原创 2017-11-24 21:39:43 · 558 阅读 · 0 评论 -
python json 爬京东商品评论
目标:爬京东任意商品评论一、首先打开京东任意商品的评论 1、我用的是QQ浏览器,右击检查,在Network下选择JS,在搜索框里输入productPageComments(如果出不来记得F5刷新一下)如图:2、双击productPageComments会得到以下页面评论就在其中啦二、找到想要的东西就要写代码啦上代码# -*- coding:utf-8 -*-impor...原创 2017-10-26 19:44:53 · 601 阅读 · 1 评论 -
python 爬小说
初学python爬虫,爬了笔趣阁的全部小说,倒是能爬下来,可是运行速度贼慢,怀疑有Bug,各位大佬可以帮忙看看# -*- coding:utf-8 -*-import urllibimport refrom bs4 import BeautifulSoupimport sysreload(sys)sys.setdefaultencoding( "gbk" )f = o原创 2017-10-15 16:54:41 · 597 阅读 · 0 评论