不会翻墙的泰隆-CSDN博客

request.session()这个方法可以保存上次请求时的Cookie，有利于我们在登录场景中，post得到Cookie后，可直接请求网页，无需登录。Cookie：由服务器产生，浏览器收到请求后保存在本地，当再次访问时，会自动带上Cookie，这样服务器就能通过Cookie来判断用户！点关注不迷路，本文若对你有帮助，烦请三连支持一下 ❤️❤️❤️各位的支持和认可就是我最大的动力❤️❤️❤️。......

2022-08-03 11:27:30 2135 5

原创【爬虫进阶】字体解密——案例解析

地址标签名称是address，所以打开address.woff，利用某度字体编辑器解析字体文件。发现后4位字符一致，所以这个woff文件就是这个字体的加密文件。打开网页，可以看到部分字体显示乱码，需要找到加密字体文件。全局搜索woff文件，找到目标文件，随机点开一个。打开目标源代码，可以发现上面文件中有字体css。处理编码与字体的对应关系。保存所有字体文件到本地。............

2022-08-01 17:30:43 1386 6

原创【爬虫技能书】分享自用爬虫书籍，快进来看看！

从页面中抓取数据的三种方法，提取缓存中的数据，使用多个线程和进程来进行并发抓取，如何抓取动态页面中的内容，与表单进行交互，处理页面中的验证码问题，以及使用Scarpy和Portia来进行数据抓取，并在最后对几个真实的网站进行了抓取。书籍，以大量系统的实战项目与驱动，由浅及深的讲解爬虫中开发的知识与技能。作者理查德劳森（RichardLawson）......

2022-07-20 15:52:35 536 7

原创【爬虫技能树】㈢、必备技能：正则表达式

正则表达式是一个特殊的字符序列，它能帮助你方便的检查一个字符串是否与某种模式匹配。Pythonre模块提供了一些函数，使用一个模式字符串做为它们的第一个参数。

2022-07-20 14:51:22 169 1

原创【爬虫技能树】㈡、urllib的使用介绍

urllib库用于请求网页URL，并对网页的内容进行抓取处理。对比request的话不是很方便，个人更偏向于使用request。模块说明打开或读取urlurllib.request抛出的异常解析url解析robots.txt。

2022-07-19 11:44:19 366

原创【爬虫技能树】㈠、request的使用介绍

Python内置了requests模块，该模块主要用来发送HTTP请求，requests模块比urllib模块更简洁。

2022-07-19 10:52:22 361 1

原创【爬虫进阶】Js逆向——有道批量翻译文本

想要更进一步了解爬虫领域，学Js肯定是必不可少的，怎么说呢？现在大部分网站开始对数据层层加密，导致我们要花费大量的精力去研究，如果不了解的话，甚至连入口都找不到！这时候就会有人说用selenium不就行了，确实没问题，但是要想想效率高吗？要是10w+的数据量，那得跑多久？如果生产使用，你要怎么办？你跟老板说，机器慢我也没办法？回到主题，js逆向没有固定的方法论，所以也没有一定的解决方法，只能见招拆招点关注不迷路，本文章若对你有帮助，烦请三连支持一下❤️❤️❤️httpshttpshttps。........

2022-07-18 15:22:49 1159 2

原创【爬虫系列】Python一键获取股票数据，搭配pyecharts可视化展示

本人没事喜欢研究下理财，毕竟那点工资想实现经济自由，不太现实！基金也好，股票也罢，都具有一定的风险程序，稍有不慎，血本无归😖，大家不要轻易冒险，赚钱不易，通过此篇文章，分享一下自己平时一些研究方法目的：爬取的数据要达到什么效果？能帮助我们解决什么问题？首先需要了解一些基本的股票知识：成交量，当前成交价，换手率，涨跌幅…等等一些基本的股票数据名词，我们了解这些数据之后，是不是就明白要爬什么了，这些数据能够帮助我们快速了解一支股票的近期形式。数据平台（爬取的网站）找了很久，也是通过一些朋友推荐的一款PC也能.

2022-06-30 17:46:32 3945

原创【爬虫系列】毕业季到了，用python写一个招聘爬虫

一年一度的毕业季又来了，应届生也要步入社会了，找工作当然是首当其冲的，仅以此篇软文，为广大应届生送上我一点绵薄之力！首先，我们抓取数据，要有一个方向；方向：爬什么数据？选用什么网站？爬虫过程是否便利？我们都要考虑到，这里我以广大同胞都在用的BOSS为例，各位不喜欢可以选用别的，纯属用习惯了！selenium (获取网页源代码)，因为boss是有比较严格的反爬机制的，用request爬取频繁的话，是会被封禁ip的，你们有条件的，可以购买代理！BeautifulSoup（解析数据），这里为什么用bs4呢，说xp

2022-06-30 15:27:45 1227 3

原创小白都能轻松掌握，python最稳定的图片识别库ddddocr

在爬虫过程中，大多我们都会碰到验证码识别，它是常用的一种反爬手段，包括：滑块验证码，图片验证码，算术验证码，点击验证码，所讲的图片验证码是较简单的，因为有大佬，给我们造好了轮子，我们直接套用就行！这是题外的，为什么要做对比呢，有对比才能知道他的优缺点。准备结果这是处理过的图片发现差别还是有点大的，要是没有训练模型，生产使用确实不太行！☁️使用ddddocr☁️简介硬性要求安装GitHub文档地址测试，还是刚刚那种图。结果，一眼可见，没有对比就没有伤害短短5行代码，就饶

2022-06-23 11:38:19 24081 1

原创为逗女朋友开心，我用python写了个定时短信

1.注册账号大多网上都是用的国外的接口，不稳定，这个是国内比较稳定的，不用担心发送不成功1.1 注册完之后，登录账号点击国内短信界面，可以看到有一个API-Key，是调用接口的必要参数，也是验证身份唯一凭证，大家一定保管好！2.调用API上图有一个万能接口，点击生成我们需要的接口，不了解的，可以看看官方文档 API文档，有详细讲解调用方法。2.1 通过request，直接请求(get)3.爬取土味情话，文采好的可以自行发挥！！！哈哈3.1 随便百度了一个，将就一下3.2 我这里就随手存放到

2022-06-22 17:15:53 576

原创 scrapy-redis搭建分布式爬取亚马逊best排行榜

不会吧不会吧，不会还有人不会scarpy吧？抖个包袱，没有那个意思哈！！！scrapy-redis简介官方架构Slaver(从)从Master(主)拿到爬取任务(Request、url)进行数据抓取，Slaver抓取数据的同时，产生新任务的Request便提交给 Master(主) 处理Master(主)负责将未处理的Request去重和任务分配，将处理后的Request加入待爬队列，并且存储爬取的数据。scrapy-redis核心思想说白了，就是利用redis机制，实现 r

2022-06-11 11:50:54 3431 3

原创三）django实现查询，分页，批量删除

前景回顾从登录到加密，好像太基础了大家都会，看来是我多虑了。那接下来我们讲解本系列核心内容，不管什么类型网站，都要用到查询，所以写好一个查询页是多么重要！泰隆从实践中得出为方便用户使用，该有的功能我们一样都不能少，不然后续头疼的还是自己。美观和使用我们都要，下面由我为大家详细说一说1.前端(前端很废，一部分是借鉴)1.1.1 select.html<!DOCTYPE html><html lang="en" xmlns="http://www.w3.org/1999/htm

2022-05-11 11:35:26 1386 3

原创 2）速卖通商品信息采集（进阶）

最近好多小伙伴私信我要代码，因为是去年完成的，某通更改了部分结构，导致代码失效，最近花了一点时间，更新了代码！回顾前景，已经说明某通的数据是js渲染过的，但是也存放在网页源码中，转换成了json格式，我们需要通过正则来提取。两种思路：1）selenium；对速度没要求，想方便一点，推荐，直接使用xpath提取数据，但是速度较慢，不适用于爬取量过大2）request；速度快，爬取量大，就是提取数据的时候比较麻烦，要分析结构3）逆向就不推荐了，需要懂js，难度较高，有想法可以试着本地加载js渲染数据

2022-04-28 16:15:54 4742 2

原创二）django实现md5加密，解密验证

你还在以明文形式存储密码吗？优点：自我可见缺点：不安全，不靠谱，不负责以下讲述使用Md5对密码进行加密，验证，也有可能被暴力破解，大家可以按key…value的形式加密，增加破解难度！)1 密码加密我使用的python3+,导入hashlib来操作Md5。pip install hashlib注册import hashlibfrom django.shortcuts import renderdef register(request): if request.method =

2022-04-01 15:17:59 3883 2

原创 (一) python+Django实现登录页面

最近因为工作需要，开始捣鼓web框架！接下来就带大家做一个小项目，方便企业内部数据统计，调查问卷！一．操作页二．数据填写页三．查询页首先我们可以找一个自己喜欢的登录页模板，不怕麻烦的话也可以自己写，我套用的是Bootstrap其中的一个登录模板。有需要可以自己去看一下！Bootstrap模板模板有了，下面开始创建一个Django项目，有条件的使用的是专业版可以在直接New Project新建一个。是社区版的就老老实实在命令行执行命令吧，命令如下:创建一个项目djang

2022-01-14 17:43:04 8288 1

原创亚马逊评论爬虫+数据分析

爬取评论做分析首先得有数据，数据是核心，而且要准确！爬虫必要步骤，选好框架开发所需数据最后测试流程这里我所选框架是selenium+request，很多人觉得selenium慢，确实不快，仅针对此项目我做过测试，相对于request要快，要方便一些！也可以用你们熟悉的框架，用的趁手就行！安装浏览器对应webdriver版本http://npm.taobao.org/mirrors/chromedriver/获取评论数，评级数, 监控评论·亚马逊产品评论分为5个等级，从1到5

2021-12-27 17:05:22 3268 1

原创 python+selenium 亚马逊商品信息采集

小编最近因为要爬取该网站，发现之前的代码用不了！所以有了这编文章，原因是因为用requets获取的源码与网页显示不一样，只能逼着我使用selenium，通过本编文章给大家讲解一下selenium基本场景运用。照常，打开F12分析网页，获取xpath,这里提醒一下大家，最好是通过右键查看源代码来获取，检查与我们实际得到的代码还是有些不一致的！废话少说，直接上代码from selenium import webdriverfrom lxml import etreefrom selen

2021-08-26 17:11:14 863

原创如何用python快速爬取速卖通商品信息

我们首先打开网页做分析按下F12点击Network找到headers，将Cookie和User-agent复制下来，留着备用！下面用requets做调式，能否获取到网页信息import requestsdef get_html(url): cookie = 'ali_apache_id=11.134.216.25.1620641275908.387521.9; cna=hyANGQQpnwUCAXFZBo1X/gL1; _bl_uid=eekXnoe0ihCgpa1FCqstxaXlI

2021-08-04 12:24:02 4083 5

原创 ‘远程主机强迫关闭了一个现有的连接‘？说说这些年爬虫遇到的坑！

想要写出好的爬虫就得经历各种风雨！ConnectionResetError(10054, ‘远程主机强迫关闭了一个现有的连接。’出现以上这种现象，无非访问频次过多，导致服务器识破了爬虫。分为以下几个步骤走：1.先检查header头，它可以伪装成浏览器，以防止识破headers = { 'User-agent':'XXXXXXXXXXXXXXX', 'Cookie':'XXXXXXXXXXXXXXXXXX' }只用添加这两条就可

2021-07-22 11:22:25 8651

原创学会Scrapy，再也不用担心不会爬虫了！

Scrapy 框架介绍scrapy是一套比较成熟的python爬虫框架，是使用python开发的快速，高层次的信息爬取框架，可以高效的爬取web页面并提取我们想要的结构化数据。Scrapy 安装与配置安装scrapypip install scrapy通过对应的版本来安装scrapy，安装最新版就行，已经可以支持python3。安装环境python3.7+scrapy最新版如果你的pip命令较老，可以通过命令升级pippython -m pip install --up

2021-05-10 17:09:32 252

原创部分电商平台为防止爬虫竟然这样做？

部分电商平台为防止爬虫竟然这样做？初步介绍此次内容涉及到的电商平台：wish，它是一款国外电商网站，主要业务在移动端，类似于国内的拼XX；URL链接：www.wish.com；爬取内容产品信息：产品名称，店铺名称，价格，评论数，评分；评论信息；开始爬虫先做一个URL解析主页面能看到的信息就只有价格，商品名称，店铺名称，评论数，没有评分；评分在另一个二级页面，但是URL链接没变；用xpath定位也不行。好在我通过索引定位到了他的value值也就是评级，发现此处隐藏了一大串

2021-03-16 16:21:00 443

原创亚马逊产品情感评论分析

爬取亚马逊网站评论信息并存入excel表import requestsfrom lxml import etreeimport reimport xlwtfrom openpyxl import workbook # 写入Excel表所用from openpyxl import load_workbook # 读取excel# import matplotlib.pylab as pltfrom xlrd import bookheaders = { 'User-Age.

2020-06-22 18:02:09 2350

原创 redis 入门操作一看就懂

redis简介优点1.⾼可扩展性2.分布式计算3.低成本4.架构的灵活性，半结构化数据没有复杂的关系缺点1.没有标准化2.有限的查询功能（到⽬前为⽌）与mysql的区别⼤⼤减少了查询数量，提⾼了效率redis的API更加⼈性化，再也不需要构建SQL语句，节省了SQL的解析时间redis经常应用场所1.排⾏榜 - 很多⽹站都有排⾏榜功能，利⽤Redis中的列表和有序集合...

2020-01-21 22:58:49 122

原创 mysql 高级查询

查询指定字段select name,age from students;起别名select name as 姓名,age as 年龄 from students;select s.name s.age from students as s;去重select name as 姓名,age as 年龄 from students;select s.name s.age ...

2020-01-19 19:24:03 386

原创 mysql 数据库简单入门

mysql基本操作连接mysql数据库mysql -h 服务器地址 -u root -p 不要在p后面直接跟密码忘记密码1.到/etc/mysql/mysqld.conf.d/,编辑mysqld.confsudo vim mysqld.conf2.到[mysqld]下添加：skip-grant-tables保存退出3.重启mysql服务： sudo service ...

2020-01-16 20:58:48 288

原创在pycham中使用虚拟环境

pycham配置虚拟环境1.创建⼀个新⼯程，File-setting->project interpreter ，点击右上角的Flie按钮–>详情如下图2.点击右上角的设置符3.然后点击show all，看里面有没有python 如果有就添加没有就点击右上角的+号新建一个4 点击“+”，然后，在下图中选择Existing interperter后⾯的.5.打开virt...

2020-01-15 19:52:27 561

原创在Ubuntu上创建虚拟环境

Ubuntu上创建虚拟开发环境1.打开终端安装pipsudo apt install python3-pip使用安装包pip install 包名pip install 包名 -i 下载源(https://pypi.douban.com/simple)使⽤pip卸载包 pip unistall 包名pip freeze 列出我们⾃⼰安装的所有依赖包pip list 列出...

2020-01-14 19:33:48 3804 3

fun_sn的博客

原创【爬虫进阶】易班登录加密逆向

原创【爬虫进阶】猿人学任务六之回溯(难度3.0)

原创【爬虫系列】用Python爬取网抑云(music)评论

原创【爬虫进阶】猿人学任务七之字体反爬(难度2.0)

原创【爬虫进阶】猿人学任务一之JS混淆(难度2.0)

原创【爬虫系列】用Pyqt5写一个爬虫小助手

原创【爬虫技能树】㈣、request.session()之应用场景