![](https://img-blog.csdnimg.cn/20200911144002884.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
爬虫
文章平均质量分 65
爬虫
山与路
博客只是记录学习过程和翻阅笔记用的
展开
-
原来python还能翻译某道翻译
【代码】原来python还能翻译某道翻译。原创 2022-09-21 18:16:40 · 1116 阅读 · 0 评论 -
原来python也能对实现简单的搜狗翻译
【代码】原来python也能对实现简单的搜狗翻译。原创 2022-09-21 17:01:56 · 855 阅读 · 1 评论 -
go的爬虫工具教你如何去翻译(go调用js,colly的使用)
【代码】go的爬虫工具教你如何去翻译(go调用js,colly的使用)原创 2022-09-21 15:04:35 · 609 阅读 · 0 评论 -
写的爬虫程序因为网站或网络原因中断,在此执行,之前的数据重新被爬取到数据库中怎么办?
增量爬虫增量爬虫案例---->猫眼演员信息爬取网站需求代码实现增量爬虫通过爬虫程序监测某网站数据更新的情况,以便可以爬取到该网站更新出的新数据。如 何进行增量式的爬取工作:在发送请求之前判断这个 URL 是否爬取过。在解析内容后判断这部分内容是否爬取过。写入存储介质时判断内容是否在介质中。不难发现,其实增量爬取的核心是去重,至于去重的操作在哪个步骤起作用,只能说各 有利弊。在我看来,前两种思路需要根据实际情况取一个(也可能都用)。第一种思路适合不断有新页面出现的网站,例如:小说的新原创 2020-09-13 15:59:36 · 3578 阅读 · 0 评论 -
通过爬虫定期发送当地天气情况给自己的邮箱
代码实现这里爬取天气信息比较简单所以就直接附上代码了import smtplibfrom email.header import Headerfrom email.mime.text import MIMETextimport requestsfrom lxml import etree# 获取当天的天气情况def ForWeather(weather_list): today=[] for weather in weather_list: dic={}原创 2020-09-13 14:30:37 · 3711 阅读 · 0 评论 -
爬取腾讯招聘网站(多线程和MongoDB)
@TOC分析我们这里搜索Python的职位打开控制台看数据从图中可以看到这个请求有我们所需要的数据代码实现这里要用到mongodb数据库,所以需要下载模块 pymongopip install pymongo多线程import threadingimport requestsimport pymongofrom queue import Queueclass Tencent(threading.Thread): def __init__(self,url,name,q原创 2020-09-11 14:32:05 · 3055 阅读 · 0 评论 -
Fiddler+模拟器进行APP抓包及其注意事项
Fiddler+模拟器进行APP抓包安装Fiddler安装模拟器Fiddler配置模拟器配置导入https证书成果在配置中常见的问题设置代理后无法联网无法打开自定义规则安装FiddlerFiddler安装模拟器这里作者用雷电模拟器Fiddler配置安装Fiddler后,配置如下配置完后然后重新打开Fiddler模拟器配置导入https证书我们先可以在本地下载证书1.先打开Fiddler然后输入网址 http://localhost:8888/下载完后会一个证书原创 2020-09-10 13:01:09 · 7183 阅读 · 0 评论 -
Python爬虫如何解密css
(6)在这几个 woff 文件里所有的文字数据都一样,顺序也一样。但是每个文字对应的unicode 码在不同文件里可能不一样。这样我们在生成字典的时候,就要注意,可能 2 个 key 对应值是一样的。例如:{”ee0b”:”园”,” f3e9” :”园”},如果有重复的键那么用第一次出现的,这个地方需要根据具体情况具体分析。(4)此处我们需要用到 fontcreator 软件(备注:在普通的网站开发中我们可以直接用百度。(8)我们通过分析以上文件。(3)从以上两个图可以看出,此处使用了字体加密。原创 2020-09-09 21:00:19 · 3910 阅读 · 2 评论 -
博客园模拟登录(常见滑块验证码破解)
import timeimport PILfrom PIL import Imagefrom selenium import webdriverfrom selenium.webdriver.common.by import By #找[某个页面元素] --定义[定位器]的主要东西from selenium.webdriver.support.wait import WebDriverWait #显示等待对象from selenium.webdriver.support import expe原创 2020-09-09 15:57:32 · 3238 阅读 · 0 评论 -
获取斗鱼当前直播现状(selenium,lxml和显示等待)
获取斗鱼当前直播现状import osimport timefrom selenium import webdriverfrom lxml import etreefrom selenium.webdriver.common.by import By #找[某个页面元素] --定义[定位器]的主要东西from selenium.webdriver.support.wait import WebDriverWait #显示等待对象from selenium.webdriver.support原创 2020-09-09 15:53:52 · 2972 阅读 · 0 评论 -
爬取数据后存入excel表中
import xlwtimport xlrdfrom xlutils.copy import copyclass Excel_Utils: @staticmethod def write_to_excel(infos,filename,sheetname='sheet1'): #创建工作簿 work_book=xlwt.Workbook(encoding="utf-8") #创建一个sheet sheet=work_b原创 2020-09-09 09:50:01 · 4675 阅读 · 0 评论 -
你真的会用Xpath
XPath基本使用XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历。W3School 官方文档:http://www.w3school.com.cn/xpath/index.asp选取节点XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。下面列出了最常用的路径表达式:表达式描述nodename选取此节点的所原创 2020-09-05 17:30:46 · 2966 阅读 · 1 评论 -
爬虫必会知识点--->正则表达式
正则表达式一、为什么要学正则表达式二、正则表达式的原理三、元字符1、匹配边界2、匹配字符3、重复次数四、python中正则表达式模块-------re一、re的使用步骤1、将正则表达式编译成一个pattern对象2、pattern对象有以下几个方法:二、贪婪模式与非贪婪模式一、为什么要学正则表达式实际上爬虫一共就四个主要步骤: (1)明确目标(要知道你准备在哪个范围或者网站去搜索) (2)爬(将所有的网站的内容全部爬下来) (3)取(去掉对我们没用处的数据) (4)处理数据(按照我们想要原创 2020-09-04 17:42:50 · 3060 阅读 · 0 评论 -
如何用浏览器调试js代码,不如先看看如何爬取百度翻译(多图警告)
爬取百度翻译爬取网站四部曲分析langdetectv2transapi?from=zh&to=en分析重点请求出现的问题解决问题js代码调试代码实现注意爬取网站四部曲分析当我们进入百度翻译的官网时先打开控制台因为我们还没使用输入任何东西,所以这二个可能请求可能对我们没有多大帮助,不过读者可自行看看,这里主要是为了查看当我们输入后会有什么变化当我们输入内容后,可以发现页面没有跳转但是url发送了变化,请求多了三个,这里可以说明在翻译过程中,实现的是ajax,因为ajax可以实现页面局原创 2020-09-03 22:48:21 · 3340 阅读 · 1 评论