自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 收藏
  • 关注

原创 一、基础select查询和设置别名“重命名”——小林月

1.3觉得麻烦也可以使用navicat的创建工具进行勾选查询字段。1.1查询表格中某个字段。1.2 查询多个字段。

2023-03-23 13:18:41 1424

原创 Hadoop集群启动后命令JPS没有DataNode或者NameNode

a:进入/opt/module/hadoop-3.1.3/data/dfs目录里面删除掉所有文件。c:进入/opt/module/hadoop-3.1.3/logs目录里面删除掉所有文件。1)需要检查core-site.xml 和 hdfs-site.xml这俩文件,配置没错的话再看第二条。2)可能已经执行格式化NameNode后,但是格式之前并没有停止之前的进程并删除相关数据。1)删除dfs文件夹里的文件和删除nm-local-dir目录。2)删除后需要重新执行格式化NameNode操作。

2023-03-22 09:19:07 7754

原创 selenium模拟登陆某宝商家店铺千牛后台--小林月

selenium:用来模拟人自动登陆网页任务:爬取店铺链接创建时间以及ID,标题。

2023-05-11 10:46:00 868 1

原创 server.start()出现报错browsermobproxy.exceptions.ProxyServerError

browsermobproxy.exceptions.ProxyServerError: The Browsermob-Proxy server process failed to start. Check <_io.TextIOWrapper name='F:\\pythonProject\\爬虫\\server.log' mode='w' encoding='cp936'>for a helpful error message.记住你的安装地址,我把它更改为 F:\Java】86位电脑的点击上面那个。

2023-05-05 17:22:20 1324 2

原创 python -- 查找出相同文件夹中缺失的文件

我要看出左边商品明细数据有25个文件,而全站推广只有22个文件,而缺失的文件如果我们一一对比会消耗大量时间(实际业务需求会更大)。在实际业务中我们会发现两个文件夹数据缺失人工对比会太难,这时候用几行代码就可以判断出文件的缺失,大大的减少了我们的时间。第二步、用完整的商品明细取比对一个个文件名是否存在于搜索推广中。第一步、先读取对应文件夹路径找出商品明细中的所有数据存于列表中。查找出缺失的三个文件。

2023-04-23 16:59:48 392

原创 xpath局部解析以及最新58(链家)二手房案例-小林月

58同城Xpath爬取结果(用excel存储)

2023-04-04 00:30:21 419

原创 python连接数据库--小林月

Python3如何连接Mysql呢?PyMySQL是在Py3版本用于连接Mysql。

2023-04-02 22:57:07 121

原创 python爬虫-bs4案例爬取三国演义全文-小林月

因此我们可以先爬取网页的标题和对应的章节网址,再以此爬取章节对应的内容。而每个标签的href则是对应章节的详细内容的网址。可以看出三国演义的标题在页面源码的里面。《三国演义》全集在线阅读_史书典籍_诗词名句网。1.2.2 标签页(外页)利用抓包器查看数据包类型。1.1.2 详情页页面。1.1.1 标题页面。

2023-04-02 20:22:30 1441

原创 python爬虫-bs4详解--小林月

bs4进行数据解析。

2023-04-02 19:16:13 596

原创 python-请你从 nums 中选出三个整数,使它们的和与 target 最接近-小林月

【代码】python-请你从 nums 中选出三个整数,使它们的和与 target 最接近-小林月。

2023-03-30 15:09:47 131

原创 python爬虫-豆瓣喜剧电影评分top100的电影-小林月

查看请求方法,网址,以及返回形式。直接利用requests模块上代码。排行榜向下滑动的时候发起一个请求。

2023-03-29 13:41:29 662

原创 python爬虫-简单页面抓取器-小林月

UA伪装:门户网站的服务器会检测对应请求的载体身份标识. # 如果检测到请求的载体身份标识为某一款浏览器,则他是一个正常的请求王 # 共为不正常的请求,则服务器端就很有可能拒绝该次请求。查看我们进入页面的UA,打开网页,回车搜索,打开F12,找到网络(wetbook)#UA:.UserAgent(请求载体的身份标识)因此我们要访问网站的反反爬策略就是已UA客户端进入。这就是我们的客户端的UA。

2023-03-29 09:27:52 500

原创 python 爬虫介绍入门

通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程。

2023-03-28 23:37:35 429

原创 十二、sql使用explain调优详解--小林月

在语句前添加explain。

2023-03-28 19:50:02 95

原创 hadoop三个核心框架底层原理--小林月

HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDFS的使用场景:适合一次写入,多次读出的场景。一个文件经过创建、写入和关闭之后就不需要改变。5.1.1) Resource Manager (RM) :整个集群资源(内存、CPu等)的老大A)处理来自客户端的请求B)监控NodeManager。

2023-03-27 22:51:21 458

原创 十一、sql-DML操作(插入insert,删除update,修改delete)--小林月

1.2.不可以为null的列必须插入值。可以为null的列如何插入值?#案例1:修改beauty表中姓唐的女神的电话为13899888899。delete from表名where筛选条件。#1.播入的值的类型要与列的类型—致或兼容。案例:修改张无忌的女朋友的手机号为114。1、方式一支持插入多行。#2.修改多表的记录。#1.修改单表的记录。

2023-03-27 15:19:48 77

原创 十、sql-子查询-小林月

含义:出现在其他语句中的select语句,称为子查询或内查询外都的查询语句,称为主查询或外查询。

2023-03-27 14:26:44 72

原创 九、sql-多表查询(sql99)-小林月

含义:又称连接查询,当查询的字段来自于多个表时,就会用到连接查询笛卡尔乘积现象:表1有m行,表2有n行,结果=m*n行发生原因:没有有效的连接条件如何避免:添加有效的连接条件会出现一对多的情况,需要添加条件来避免。

2023-03-26 23:30:16 127

原创 八、sql-分组函数 group by(where和having)详解和举例-小林月

案例:按员工姓名的长度分组,查询每一组的员工个数,筛选员工个数>5的有哪些。案例2:查询每个工种有奖金的员工的最高工资>12000的工种编号和最高工资。案例1:查询邮箱中包含a字符的,每个部门的平均工资。案例2:查询有奖金的每个领导手下员工的最高工资。②根据①结果继续筛选,最高工资>12000。案例:查询每个部门每个工种的员工的平均工资。案例1:查询出员工个数大于2 的部门。①查询每个工种有奖金的员工的最高工资。案例二:查询每个位置上的部门个数。案例一:查询每个工种的最高工资。

2023-03-26 19:09:40 984 1

原创 【数据分析】基于XGboost(决策树)的银行产品认购预测--小林月

环境:使用python+jupter nodebook数据:本文数据来源2023年【教学赛】金融数据分析赛题1:银行客户认购产品预测。

2023-03-24 12:04:05 4164 1

原创 七、分组函数(sum,avg,max,min,count)-小林月

功能:用作统计使用,又称为聚合函数或统计函数或组函数分类:sum求和、avg 平均值、max最大值、min最小值、count计算个数#1、简单的使用SELECTSUM(salary)和,aVG(salary)平均,MAX(salary)最高, MIN(salary)最低, coUNT (salary) 个数。

2023-03-24 10:51:39 210

原创 六、sql流程控制if和case函数详讲-小林月

案例:查询班级没有信息的学生信息并备注。

2023-03-24 10:16:05 99

原创 五、sql 获取日期的函数-小林月

其余的与他月,秒,分,等相同。

2023-03-23 21:57:38 1065

原创 四、sql常见数字函数-小林月

【代码】四、sql常见数字函数-小林月。

2023-03-23 21:45:47 55

原创 三、 sql语句常用字符函数-小林月

案例:姓名中首字符大写,其他字符小写然后用_拼接,显示出来。Iinsert:返回字符串第一次出现的位置,找不到返回0。加入form可以自我定义。

2023-03-23 21:36:04 93

原创 order by 排序查询 -小林月

案例三:如果按照一个字段排序以后,需要再次排序。案例:按照学号从小大进行显示名字和班级。案例二:按照姓名长度进行排序。

2023-03-23 20:38:20 91

原创 二、条件查询(where)

案例:查找学号在2019443800到2019444000或者班级是大数据19-03班的的学生。案例:查询班级是大数据2019-03或者大数据2019-04的学生的学号和名字。案例:班级不是大数据2019-03或者大数据2019-04的学生的学号和名字。案例:查询学号在2019443800到2019444000的学生名字和班级。案例二:查询第二个字符是数,第是个数据是2的学生学号。案例:#查询学号大于2019443800的学生。案例:查询某字段数据中含有“数”的学生信息。

2023-03-23 16:06:58 86

原创 mysql去重和+的使用-小林月

【代码】mysql去重和+的使用-小林月。

2023-03-23 14:04:19 54

原创 mysql常用命令-小林月

- show TABLEs from “数据库”CREATE TABLE “表名”(3)展示当前数据库下的所有表格。4)查看其他库的所有表。2)3)进入某个数据库。

2023-03-23 12:34:51 67

原创 编写myhadoop.sh脚本快捷开启集群,一起开启(关闭)dfs,yarn

1)各个模块分开启动/停止(配置ssh是前提)常用 (1)整体启动/停止HDFS (2)整体启动/停止YARN2)各个服务组件逐一启动/停止 (1)分别启动/停止HDFS组件 (2)启动/停止YARN编写Hadoop集群常用脚本1)Hadoop集群启停脚本(包含HDFS,Yarn,Historyserver):myhadoop.sh输入以下内容保存后退出,然后赋予脚本执行权限2)查看三台服务器Java进程脚本:j

2023-03-22 12:53:17 301

原创 【问题】hadoop jar wordcount时报INFO client.RMProxy: Connecting to ResourceManager at hadoop103/192.168.75

运行hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output1出现INFO client.RMProxy: Connecting to ResourceManager at hadoop103/192.168.75。这里可以自己去用stop.dfs.sh和stop.yarn.sh分别去你配置的副本进行关闭。集群下的所有data/ logs/文件夹。3.重新格式化nameno。

2023-03-22 12:39:37 759

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除