自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 收藏
  • 关注

原创 新浪采集文本爬取实战

链接 https://finance.sina.com.cn/stock/relnews/cn/2024-10-26/doc-inctvrri0977124.shtml。# 链接 https://finance.sina.com.cn/stock/zqgd/2024-10-26/doc-inctvrrf4208311.shtml。# 链接 https://finance.sina.com.cn/stock/2024-10-26/doc-inctvrrf4201330.shtml。

2024-10-27 15:18:04 804

原创 用户延时访问插件编写

用于部分网站有ip代理检测,如果有IP访问过于频繁,会把我们ip值给分掉,界面显示403。(对数据要求不大)timesleep。

2024-10-26 12:33:43 268

原创 Pyhton基础篇:robots检测插件编写

例如,百度的robots文件访问网站是:[baidu.com/robots.txt](https://www.baidu.com/robots.txt)可以检测我们是否符合网站的规范,如果在禁用列表,禁止爬该网站,保证爬虫的安全。print("网站禁止你爬取")# d对网站进行切分,取出网站主页。在网站后缀加上“robots.txt”# 执行URL更新函数。# 存储robots。# 读取robots。# robots检测插件编写。如何查看网站robots。

2024-10-26 10:59:53 427

原创 python爬虫基础篇:http协议、请求头、响应头

搞爬虫就是搞http协议,位于应用层HTTP协议以明文方式发送数据,数据无法加密,易被盗取HTTPS协议较http协议加了个安全层,即有一个SSL协议区别:HTTPS协议需要一个ca证书,一般免费较少,所以需要一定费用HTTP是超文本传输协议,信息是明文传输,https具有安全性的ssl加密传输协议。http和https使用的是完全不同的连接方式,用的端口也不相同,http用80端口,https用443http的连接很简单,是无状态的;

2024-10-25 21:21:33 913

原创 python爬虫基础篇:BeautifulSoup解析界面

资源共享吧|易语言论坛|逆向破解教程|辅助开发教程|网络安全教程|www.zygx8.com|我的开发技术随记

2024-10-25 20:49:20 676

原创 python爬虫基础篇:常用的数据清洗

1、根据任意多的分隔符操作字符串re.split()输出结果:['sre', 'size', 'hello', '490', '']2、字符串连接合并Str.join()# 输出结果:sresizehello490​# 输出结果 sre+size+hello+490+3、字符串多次替换intab = "sll" # 替换前词ontab = "SLL" # 替换后词# 输出结果:Sre##Size##heLLo##490##4、在字符串开头或结尾做文本匹配。

2024-10-25 20:45:30 492

原创 python爬虫基础篇:文本操作和二进制存储

f.readlines(),把文本中的内容以列表形式输出,换行操作由换行符代替,若要对数据清洗,可以使用strip()把文件切割,然后经replace把/n转换成空即可。# 输出文本内容 :['lll\n', 'aaa\n', 'hhh\n', 'wywywywywywy']print("文件可读")

2024-10-25 20:43:36 640

原创 Python爬虫,初识xpath(1)

抓取主页面当中所有壁纸的链接地址xpath是专门针对xml而创建的表达式语言,可以直接从xml中提取表达式数据;也可以取html取数据;html是xml的子集。1.按照lxml安装包在python终端输入 pip install lxml# 或者​# 需要加载准备解析的数据​# 加载数据,返回element对象​# 从elemnt提取界面所有内容# xpath的语法。

2024-10-20 13:46:12 852

原创 初识Python爬虫,使用正则表达式提取数据

正则:用来匹配字符产的一门表达式语言1.正则支持普通字符2.元字符,即一个符号匹配部分对应内容\d 匹配0-9的数字 \d\d 一行提取2个数字\w 匹配数字、字母、下划线(0-9、a-z、_)\W \w取反\D \d取反[abc] 自定义匹配abc[^abc 】(英文的】)[abc]取反. 除了换行符都可以匹配。量词控制,前面元字符出现的频次+,前面的元字符出现1次或多次*,前面的元字符出现0次或多次。贪婪匹配,尽可能多的匹配数据?前面的元字符,出现0次或一次。

2024-10-19 22:54:18 1081

原创 Python爬虫初识——实操发送get,post请求

gbk 包含中文unicode 万国码 定长字节UTF-8 不定长字节,最为通用。

2024-10-19 10:26:13 1315

原创 IDEA打jar包(胖包/廋包)

1.打开Project Structure 或者使用快捷键Ctrl+Alt+Shift+S。5.把之前缓存清理一下。3.1 廋包打包方法。3.2 胖包打包方式。

2024-08-19 17:07:35 277

原创 VMware Workstation该虚拟机似乎正在使用中的解决方法

在存放该虚拟机的目录下,找到Jenu.vmx.lck文件,对该文件重命名或者删除即可,建议重命名文件,后续出现问题方便再次更改。出现这种情况多半是由于不正常关闭虚拟机导致的。

2024-08-13 10:55:21 255

原创 启动flume出错原因

1.在配置采集数据到hdfs文件的配置时,复制总是自动少一行。#描述source #可以断点续传,传递目录 #采集目录内容。一致采集不了数据,于是就开始对之前配置过的各种问题进行排查。要关注,并且之前习惯一句代码后面加一句解释,然后就报错了。## 控制输出文件是原生文件。果然,小失误造成大问题。

2024-08-06 21:24:48 306

原创 安装Redis数据库并提取数据

mkdir {conf,data} # conf 配置文件目录 data 数据存放目录 log日志文件目录。logfile "redis.log" # 指定logfile的文件名 默认没有日志文件。bind 0.0.0.0 # 配置可以所有的地址都可以访问redis。# date: 具体生成哪一天的数据 count: 具体生成的数据量。dir ./data # 相关的数据和日志文件的存放目录。# redis数据库的连接地址 端口 密码。# web应用服务器的启动端口。3.安装一些gcc编译库。

2024-08-06 18:22:58 398

原创 hadoop拒绝通过history访问mapreduce已完成的job日志

原因:通过start-dfs.sh和start-yarn.sh启动hadoop各项节点后,historyserver并没有启动,需要手动启动,因此可以通过以下命令来手动启动historyserver,启动命令:mr-jobhistory-daemon.sh start historyserver。关闭命令:mr-jobhistory-daemon.sh stop historyserver。

2024-08-02 18:16:05 226

原创 ifconfig命令后不显示ens-33,无法使用CRT/Xshell连接

3.CRT/Xshell无法连接执行以下命令。1.先查看有没有ifcfg-ens33文件。方法一. 重启虚拟机。

2024-08-02 17:30:02 364

原创 使用192.168.88.XX:9870无法访问集群Web访问UI

2.检测192.168.88.XX:9870中:是否是中文输入法(找了半小时原因,发现输入法错了哈哈哈)systemctl disable firewalld.service # 设置开关机关闭防火墙。找到对应hadoop/etc/hadoop/vim hdfs-site.xml。3.检测hdfs配置文件是否配好。检测主机名和端口号是否配好。1.检测防火墙是否关闭。如果没关,则关上防火墙。

2024-07-31 23:40:10 299

原创 关闭防火墙和Selinux

【代码】关闭防火墙和Selinux。

2024-07-31 14:56:54 204

原创 修改hosts映射

解决方法:在/etc/hosts中分别配置 node1 node2 node3的映射。systemctl restart network 重启网卡。域名解析映射:通过服务器的主机名访问:node2。直接通过ip访问:192.168.88.101。需要在hosts文件中进行配置。

2024-07-31 14:54:16 531

原创 修改主机名

i"更改为写入模式,更改好后 按钮esc 输入:wq!1.配置文件:/etc/hostname。服务器:配置一个固定的名字,方便寻找。

2024-07-31 14:51:04 232

原创 CRT出现乱码解决方式

2024-07-27 15:49:17 499

原创 Linux常见调试命令,开关、重启命令,

(2)shutdown,最安全的关机和重启命令,该命令执行时会停止一些服务和保存数据。(3)关闭系统,不会完整关闭和保存系统服务。16.linux中查看IP地址网关命令。10.linux中启动mysql命令。11.linux中mysql登录命令。12.linux中关闭mysql命令。9.linux中查看mysql服务。13.linux中防火墙关闭命令。14.linux中防火墙开启命令。3.linux中网络开机命令。4.linux中网络关机命令。5.linux中网络重启命令。1. linux关机命令。

2024-03-05 00:18:53 345

原创 VScode报错 CS7022: 程序的入口点是全局代码;将忽略“Main(string[])”入口点。

使用VScode,学习C#,运行报错。报错内容:E:\C#project\dome1\Program.cs(1,13): warning CS7022: 程序的入口点是全局代码;将忽略“Main(string[])”入口点。E:\C#project\dome1\Program.cs(8,22): warning CS8600: 将 null 文本或可能的 null 值转换为不可为 null 类型。

2024-03-04 17:08:14 771 1

原创 Shell基础命令及语法

用户变量:编程中使用最多环境变量:程序运行时设置特殊变量:对参数判断和命令返回值判断使用用法:变量名=变量值规则:a.变量名不能数字开头b. hell所有变量默认为字符型,无法计算,若要进行计算,要用特殊命令c.“=”用于赋值,左右两边不能有空格d. 变量值中如果有空格,则需要使用单引号或双引号包含,如 test="hello world!双引号括起 来的内容"$"和反引号者都拥有特殊含义,而单引号括起来的内容都是普通字符。e.在变量值中,可以使用转义符"、"。

2024-03-03 10:41:31 1713 1

原创 NotePad++连接虚拟机

连接好后,即会显示出虚拟机,点击虚拟机图标,即进入虚拟机界面,可以选择文件进行编写,保存后即可同步文件内容。然后打开文件夹,并重命名为bin文件夹,复制bin文件夹下的NppFTP,粘贴到,NoteFTP。NotePad++连接虚拟机前,需要先下载一个插件。进入NotePad+,点击NppFTP,在下方输入虚拟机IP地址,用户及密码,type选择SFTP。粘贴到NotePad+文件地址下的plugins文件夹内。可以直接进百度网盘下载提取。

2024-02-29 09:43:54 781

原创 vi编译器基本代码及进入,退出

vi +10 a.txt #直接打开文件,并定位到第10行。vim a.txt #有语句颜色和层级。1.只能编辑文本内容,不能对字体段落进行排版。vi a.txt #直接打开文件。退出文件不保存返回终端。vi核心思想:让用户在键盘上可以完成所有操作。是linux中最经典的文本编辑器。

2024-02-29 09:03:11 504

原创 LINUX基础代码全库

终端命令格式:command[-options][-parameter]command 命令名,相应功能的英文单词或单词的缩写options 选项,可用来对命令进行控制,也可以省略parameter 传给命令的参数,可以是0,1,2,3....目录=文件夹全程英文状态下书写普通用户转root用户su - 换行 书写密码root用户转普通用户su - root 换行 书写密码(123456)ctrl + l/clear #清屏。

2024-02-29 08:53:53 1191

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除