爬虫
文章平均质量分 79
克金森沐沐
这个作者很懒,什么都没留下…
展开
-
如何借助 Django 来编写一个 Python restful api接口
用Python如何写一个接口呢,首先得要有数据,可以用我们在网站上爬的数据,在上一篇文章中写了如何用Python爬虫,有兴趣的可以看看:https://www.cnblogs.com/sixrain/p/9120529.html大量的数据保存到数据库比较方便。我用的pymsql,pymsql是Python中操作MySQL的模块,其使用方法和MySQLdb几乎相同。但目前在python3.x中,PyMySQL取代了MySQLdb。1.连接数据库# 连接数据库,需指定charset否则可能会报错db原创 2021-09-06 10:40:15 · 1055 阅读 · 0 评论 -
利用Python爬虫网上的漂亮妹子图
最近学完Python,写了几个爬虫练练手,网上的教程有很多,但是有的已经不能爬了,主要是网站经常改,可是爬虫还是有通用的思路的,即下载数据、解析数据、保存数据。下面一一来讲。1.下载数据首先打开要爬的网站,分析URL,每打开一个网页看URL有什么变化,有可能带上上个网页的某个数据,例如xxID之类,那么我们就需要在上一个页面分析HTML,找到对应的数据。如果网页源码找不到,可能是ajax异步加载,去xhr里去找。有的网站做了反爬的处理,可以添加User-Agent :判断浏览器self.user_原创 2021-09-04 11:30:14 · 535 阅读 · 0 评论 -
Python 爬虫从入门到放弃,网络爬虫应用实战
python 爬虫应用Request 库get 方法Request 对象Response 对象session 会话对象正则匹配re.match() 方法例题:bugku-web 基础 $_POST例题:bugku-速度要快例题:bugku-秋名山老司机例题:bugku-cookies 欺骗Request 库get 方法Python requests 库的 get()方法非常常用,可以用于获取网页的源码等信息,该方法的语法为:requests.get(url, params=None, **kwar原创 2021-08-15 11:14:13 · 498 阅读 · 0 评论 -
Python入门你要懂哪些?这篇文章总算讲清楚了
你真的了解Python吗?这篇文章可以让你了解90%人们为什么使用Python?Python是“脚本语言”吗?Python的缺点是什么?现如今有谁在用Python?使用Python可以做些什么?Python和其他语言比起来怎么样?人们为什么使用Python?之所以选择Python的主要因素有以下几个方面:软件质量:在很大程度上,Python更注重可读性、一致性和软件质量,从而与脚本语言世界中的其他工具区别开发。此外,Python支持软件开发的高级重用机制。例如面向对象程序设计。提高开发者的效率:相原创 2021-08-14 11:21:16 · 280 阅读 · 0 评论 -
一行代码实现Python运行性能增强百倍,性能发动机numba模块介绍
python由于它动态解释性语言的特性,跑起代码来相比java、c++要慢很多,尤其在做科学计算的时候,十亿百亿级别的运算,让python的这种劣势更加凸显。办法永远比困难多,numba就是解决python慢的一大利器,可以让python的运行速度提升上百倍!什么是numba?numba是一款可以将python函数编译为机器代码的JIT编译器,经过numba编译的python代码(仅限数组运算),其运行速度可以接近C或FORTRAN语言。python之所以慢,是因为它是靠CPython编译的,num原创 2021-08-12 10:54:01 · 331 阅读 · 0 评论 -
遇到禁止复制该怎么办?幸好我会Python...
目录01、小案例1、安装pdfkit库2、小案例02、实战1、目标网站03、小结或者是这种情况以上这种情况都是网页无法复制文本的情况。不过这些对于Python来说都不是问题。今天辰哥就叫你们用Python去解决。思路:利用pdfkit库将html网页保存为pdf01、小案例1、安装pdfkit库pip install pdfkit通过命令安装pdfkit,此外还需要安装exe文件(wkhtmltopdf)。下载链接:https://wkh原创 2021-08-09 10:15:41 · 1880 阅读 · 0 评论 -
python中脚本怎么执行sql语句?
python连接mysql并执行SQL语句的方法步骤:1.创建与数据库连接对象2.建立游标对象3.利用游标对象 执行SQL语句命令4.#提交到数据库5.关闭游标对象6.关闭数据库连接7.建立一个Mysqlpython 类 实现数据库的连接 关闭 和执行SQL语句操作,实现对数据库连接的封装实现代码:import pymysql #1.创建与数据库连接对象db =pymysql.connect(host="localhost",user="root",原创 2021-06-21 18:34:12 · 1448 阅读 · 0 评论 -
Python反反爬虫 - Frida破解某安卓社区token反爬虫
Python反反爬虫 - Frida破解某安卓社区token反爬虫前言分析过程1、jeb分析ida分析结论前言不多逼逼,这个安卓社区就是酷安,以前想过要爬这软件,但是都忘了,几天前抓了下它的包,发现请求 headers 里有一个 token 验证,果断就给破了分析过程先抓个包可以看到其中有个请求头X-App-Token,这就是验证,至于X-App-Device这玩意儿应该是获取你手机信息的,不管它,先看看软件源代码,找到请求方法1、jeb分析没加固,好像也没混淆,舒服搜索关键字:X-Ap原创 2021-06-17 18:25:17 · 1174 阅读 · 5 评论 -
五分钟学会Python网络爬虫,这可能是我见过最简单的基础教学了!
五分钟学会Python网络爬虫前言什么是爬虫爬虫的基本原理爬虫工具和语言选择一、爬虫工具二、爬虫语言Python 爬虫Selenium库的使用一、基础知识二、Selenium基础爬虫实例演示前言“爬虫写得好,牢饭吃到饱”,业内常用这个段子来调侃爬虫工程师。因为做爬虫有些敏感、重要的数据是不能随便抓取,进行商业利用的,不然随时都可能被请去“喝茶”。今年,就有好多互金公司因为爬虫的问题,被举报调查。但不管怎样,爬虫技术是无罪的,还是值得我们开发人员去学习了解一下的。在学习之前,我们还是要先了解一下相关概念原创 2021-06-16 17:37:19 · 1713 阅读 · 0 评论 -
用Python写微信防撤回脚本,锁定那些被撤回的消息,就是撤回了也可以看到
如果好友短时间发送多条消息然后撤回会难以判断究竟撤回的是哪条信息,只能靠猜。后来我觉得“猜”这个事情特别不Pythonic,研究一段时间后找到了解决方案,不得不惊叹ItChat真的好强大。之前解决方案大概是这样:短时间内同一位好友发送了多条消息,当他随便撤回一条消息时,我们不能确定他到底撤回的到底是哪一条消息。只能猜他可能是撤回了最近的一条消息,然后将其他消息贴出来作为备选。代码如下:target_msg_pattern = '"{}" 撤回了一条消息'.format(sender_name)i.原创 2021-06-07 15:27:19 · 1058 阅读 · 4 评论 -
怎样使用python爬虫获得免费代理IP
怎样使用python爬虫获得免费代理IP进行爬取和测试有效性总结爬虫一直是python使用的一个重要部分,而许多网站也为此做了许多反爬措施,其中爬虫访问过于频繁直接封ip地址也作为一种“伤敌一千,自损八百”的方法被许多网站采用,代理ip便可以防止这种情况出现。进行爬取和测试有效性分析完毕开始爬取ip,直接使用第三方的requests和BeautifulSoup4,可以让抓取变得很方便,代码如下:from iptools import header, dict2proxyfrom bs4 impor原创 2021-05-29 18:55:00 · 1731 阅读 · 2 评论 -
神仙版教程! Python生成九宫格创意图片,这样操作更简单
最近发现朋友圈有朋友动态的九宫格照片实际是一张图,很好奇怎么实现。试想一下能不能用Python实现这个小功能。在网上查了一下,发现已有人通过Python实现过,只是功能简单实现,不够完善,且不能很好给其他人使用。遂自己想把它完善。一、开发环境搭建1、Python32、Pycharm二、代码实现我们需要把图片进行取存,并需要将图片裁剪成你想要的数量,所以我们需要用到以下四个模块:Image模块是在Python PIL图像处理中常见的模块,它能对图片进行各种基本处理;shutil、os模块提供了非原创 2021-04-19 14:25:19 · 625 阅读 · 0 评论 -
乖乖!“手机”居然也可以写Python代码?还支持各种库?
2017.12.9更新如果单纯手机上使用python的话,安卓更推荐Pydroid3/2,可以直接在google play下载。可免费使用,各种模块如numpy,matplotlib,pandas,scipy,pillow,pyqt5,scikit-learn等等都可以安装使用,不过免费版是没有代码提示功能的,有条件的还希望大家支持一下作者,开个pro版本。---------------------------------------------------------------------------.原创 2021-04-17 19:29:32 · 1450 阅读 · 0 评论 -
Python爬虫速度很慢?并发编程了解一下,提高10倍速度
在开发爬虫的时候,对于老工程师的工作节奏一般是先实现爬虫的抓取逻辑,然后就要提升爬取的效率了。众所周知想提升效率就要涉猎到并发编程姿势啦,所以今天我们抛砖引玉,不去过多的计较太原理和抽象的东西,而是用 Python 自带的并发标准库和第三方库来看看怎么优雅的实现并发编程和提升爬取效率。我们写来个简单的爬虫:# -*- coding=utf-8 -*-import timeimport requestsfrom bs4 import BeautifulSoupt1 = time.time()原创 2021-04-16 19:27:45 · 922 阅读 · 0 评论 -
python爬虫入门,10分钟就够了,这可能是我见过最简单的基础教学
一、基础入门1.什么是爬虫爬虫(spider,又网络爬虫),是指向网站/网络发起请求,获取资源后分析并提取有用数据的程序。从技术层面来说就是 通过程序模拟浏览器请求站点的行为,把站点返回的HTML代码/JSON数据/二进制数据(图片、视频) 爬到本地,进而提取自己需要的数据,存放起来使用。想要学习Python又缺少系统化学习方案的朋友可以关注并私信“学习”免费领取系统化的Python学习资料…愿大家都能在编程这条路,越走越远。2.爬虫基本流程用户获取网络数据的方式:方式1:浏览器提交请求—&g原创 2021-04-14 19:30:20 · 289 阅读 · 0 评论