自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(68)
  • 资源 (5)
  • 收藏
  • 关注

原创 kafka入门

分区是线性增长的,当消息存到kafka分区里,就不可变更,kafka会为每个消息分配一个偏移量,也就是offset,offset会记录每条消息的位置,kafka可通过偏移量对消息进行提取,但没法对消息的内容进行检索和查询。偏移量在每个分区中是唯一的,不可重复,递增的。kafka中的消息存在topic中,也就是主题,类似于数据库中的表,通常我们将相同类型的消息存放在一个主题中。主题可以包含多个分区,kafka是分布式的消息系统,可以将不同的分区存到不同的服务器上,这样就使得kafka具有拓展性。

2024-03-29 11:27:54 348

原创 Python 枚举(Python Enumerations)

使用枚举常量在这个示例中,我们使用 auto() 函数为枚举常量自动生成连续的值。这样可以避免手动为每个枚举常量赋值,并确保每个值在枚举中是唯一的。

2024-03-19 16:45:50 401

原创 python单例模式

单例模式(Singleton Pattern)是一种设计模式,它确保一个类只有一个实例,并提供一个全局访问点来访问该实例。这个模式通常用于那些需要在整个应用程序中共享一个公共资源的情况,例如日志记录器、数据库连接、线程池等。单例模式的主要特点包括:单一实例:一个类只能有一个实例存在。全局访问点:提供一个公共的访问点,允许其他对象在程序中访问这个单例实例。

2024-03-19 16:40:03 285

原创 Python 异步编程(Async/Await)

Python 中的异步编程是一种编程模式,它允许程序在等待 I/O 操作(如网络请求、文件读写等)的同时继续执行其他任务,而不会阻塞整个程序。这种方式可以提高程序的效率和响应性。在 Python 中,异步编程的核心概念是使用 async 和 await 关键字来定义异步函数和执行异步操作。

2024-03-19 16:18:56 471

原创 xpath用法

如果路径以双斜线 // 开头, 则表示选择文档中所有满足双斜线//之后规则的元素(无论层级关系)方块号里的表达式可以进一步的指定元素, 其中数字表示元素在选择集里的位置, 而last()函数则表示选择集中的最后一个元素.

2023-12-20 17:23:58 948 1

原创 pandas读取csv文件(分隔符是一个或者多个空格)

如果遇到csv文件不是以逗号分隔,也不是以一个空格分隔,也不是 \t 分隔,里面提到可以修改sep参数为正则表达式来作为分隔符。但是又是有规律的分隔,就像下面这种。也就是说可以这样来读取文件。可以去掉索引,看的更方便。可以修改sep参数为。

2023-10-10 10:47:50 1463

原创 深度学习-了解

当输入信号被送往神经元时,分别乘以各自的权重,然后加总,如果总和超过阈值 𝜃 ,则𝑦的输出为 1 ,否则为 0。通过使用随机子集,可以在每次迭代中使用不同的样本来计算梯度,从而减少计算开销,并引入一定程度的随机性。总之,激活函数在神经网络中起到了非常重要的作用,通过引入非线性变换和增强表达能力,它使得神经网络可以学习和表示复杂的非线性关系,从而提高了网络的建模能力。全连接是指神经网络模型中,相邻两层单元之间的连接方式,使用全连接方式时,网络当前层的单元与网络上一层的每个单元都存在连接。

2023-10-07 10:40:29 220

原创 对本地的静态html文件发送http请求

文件链接:D:/mystudysoft/weixinkaifa/WeChat%20Files/wxid_inmlsqlnnpqs22/FileStorage/File/2023-09/%E5%BE%B7%E5%9B%BD%E4%BA%A4%E9%80%9A%E6%A0%87%E5%BF%97%E8%AF%86%E5%88%AB/dist/build/h5/static/js/pages-index-index.ac96133b.js。前端的文件基本都有。是一个js文件,html文件同理。

2023-09-21 12:02:19 894 2

原创 使用scp命令失败出错

这些是SCP的一些常见用法示例。请注意,上述命令中的/path/to/local/file和/path/to/remote/file是文件的路径,/path/to/local/directory和/path/to/remote/directory是目录的路径。username是远程服务器的用户名,remote是远程服务器的地址或主机名。SCP(Secure Copy)是一个用于在本地主机和远程服务器之间进行安全文件传输的命令行工具。使用scp命令失败出错,无反应。再次尝试scp命令。

2023-09-15 10:15:09 1795

原创 The kernel appears to have died. It will restart automatically.

OMP:提示这意味着OpenMP运行时的多个副本已链接到程序中。最好的做法是确保只有一个OpenMP运行时链接到进程中,例如避免在任何库中静态链接OpenMP运行库。作为一种不安全、不受支持、未记录的解决方法,您可以将环境变量KMP_DUPLICATE_LIB_OK=TRUE设置为允许程序继续执行,但这可能会导致崩溃或无声地产生不正确的结果。有关更多信息,请参阅http://www.intel.com/software/products/support/.查看 anaconda prompt。

2023-08-15 14:57:14 189

原创 卷积神经网络

感受野(Receptive Field):每一个视觉神经元只会处理一小块区域的视觉图像。人类的视觉原理如下:从原始信号摄入开始(瞳孔摄入像素Pixels),接着做初步处理(大脑皮层某些细胞发现边缘和方向),然后抽象(大脑判定眼前的物体的形状是圆形的),然后进一步抽象(大脑进一步判定该物体是只气球)。对于不同的物体,人类视觉也是通过这样逐层分级来进行认知的:最底层特征基本上是类似的,就是各种边缘;越往上,越能提取出此类物体的一些特征(轮子、眼睛、躯干等);

2023-08-02 21:06:48 736

原创 神经网络原理概述

感知器,接收若干个输入,产生一个输出的结果,这个结果就代表了感知器所做出的决策。如图,圆圈表示一个感知器,它可以接收多个输入,产出一个结果,结果只有两种情况,“是”与“否”。感知器内部决策的原理,其实就是给不同的因素赋予不同的权重(重要性)。然后设置一个阈值,如果加权计算之后的结果大于等于这个阈值,就说明可以判断为是,否则就是否。所以感知器本质上就是一个通过加权计算函数进行决策的工具。单层感知器是一个只有一层的神经元。

2023-08-01 20:47:25 604

原创 python pandas读取文件夹并把文件夹里面的所有txt文件转为dataframe

有一个名为neg的文件夹里面有neg.0.txt到neg.2999.txt,3000个txt文件,每个txt不一定仅有一行内容,有一个名为pos的文件夹里面有pos.0.txt到pos.2999.txt,3000个txt文件,每个txt不一定仅有一行内容,怎么用python pandas读取文件夹里面的txt文件并且把每个txt文件转为dataframe的某一列的一行内容。去掉txt文件里的换行符和空格。数据为 酒店评论语料。

2023-05-26 08:38:27 1368

原创 使用python的cartopy库读取shapefile文件 .shp文件是乱码

打开后只要在左上角位置输入需要的行政区划范围名称,就可以快速获取到该范围的矢量底图数据。提供的获取方式有JSON API,也可以直接下载geojson或者svg格式。使用python 用 这个.json文件生成一个.shp,也就是shapefile文件,并且指定编码,问题即可解决。使用python的cartopy库读取shapefile文件即.shp文件乱码。我在使用python的cartopy库读取shapefile文件时出现了乱码。record的.attributes的[‘name’]都是乱码。

2023-04-22 21:36:19 1694 3

原创 anaconda ( jupyter notebook ) 安装 Cartopy库

Cartopy 也是一个 python 地图绘制包,同样能完成很多 Basemap 能实现的功能,而且旨在使数据分析及可视化尽可能简单。其利用了强大的 PROJ.4,numpy,shapely库,提供了简单直观的绘图接口,可以创建满足出版质量的地图。Cartopy 是一个开源免费的第三方 Python 扩展包,由英国气象办公室的科学家们开发,支持 Python 2.7 和 Python 3,致力于使用最简单直观的方式生成地图,并提供对 matplotlib 友好的协作接口。4.安装cartopy库。

2023-04-19 09:26:07 3068 2

原创 matplotlib设置中文字体为微软雅黑

如何在linux系统下让matplotlib显示中文?“巴西”: [-47.55, -15.47], —1。“坦桑尼亚”: [35.45, -6.08], —1。“罗马尼亚”: [26.10, 44.27], —1。“意大利”: [12.29, 41.54], —1。“俄罗斯”: [37.35, 55.45], —3。“文莱”: [115.00, 4.52], —1。“美国”: [-77.02, 39.91],—3。“中国”: [116.20, 39.55],在代码中加入以下代码。

2023-04-18 09:30:41 927

原创 anaconda ( jupyter notebook ) 虚拟环境安装 lazypredict

进入 D:\mystudysoft\Anaconda3\envs\py3.9\Lib\site-packages\lazypredict 目录下。5.将虚拟环境py3.9导入jupyter的kernel中(自己设置显示的名字为python3.9)4.安装ipykernel (第一次导入虚拟环境的要下载)在 removed_classifiers中修改如下内容。在removed_regressors中修改如下内容。4.删除虚拟环境(py3.9是虚拟环境名)3.查看当前有哪些虚拟环境。修改import部分。

2022-11-30 13:57:00 1223 2

原创 Hive SQL案例

2.计算学历为本科的人员在调查中的占比,结果写入本地/root/college012/。1.计算较高收入人群占整体数据的比例,结果写入本地/root/college011/。4.计算男性群体中高收入职业排行,结果写入本地/root/college014/。7.统计教育程度对于收入的影响,结果写入本地/root/college017/。6.统计性别对于收入的影响,结果写入本地/root/college016/。4.统计表数据,结果写入本地/root/college000/01/中。

2022-11-18 23:23:10 1672 4

原创 B树和B+树(平衡多路查找树)

比如说这个 word 文档右击查看它的属性,虽然大小是46.9KB,但是占用空间是48KB,这是4K的整数倍,也就是磁盘加载数据到内存中都是datapage的整数倍。然后顺着磁盘块1的p2找到磁盘块3,再把磁盘块3加载到内存里面,然后2831,找到磁盘块3的p2了。这大大降低了高度,允许更快的磁盘访问。首先把磁盘上的这个块加载到内存里,1628,找到磁盘块1的p2,这是进行的第一次IO。查找37,根节点是48,48>37,看48的左子树,25

2022-11-01 11:22:44 732 4

原创 pandas处理标签-列表值处理

pandas DataFrame对列表值进行处理。

2022-10-04 19:02:39 519 1

原创 lgb,xgb,cat k折交叉验证

import lightgbm as lgbimport xgboost as xgbimport catboost as cat#传入:模型,训练集x,训练集y,测试集x,模型的名字def cv_model(clf, train_x, train_y, test_x, clf_name): #折叠次数5,随机数种子2020 folds = 5 seed = 2020 #分成4份训练集,1份测试集 kf = KFold(n_splits=folds, shuf

2022-04-21 23:25:15 1029 2

原创 python pandas利用str.extract()方法处理标签

所有标签长这样比如说输入闪订 ,然后看每一行的 全部标签 数据里有没有 闪订,如果有的话 闪订 的值计为1,没有的话计为0,总共有9个标签,最后实现了这样的效果import numpy as npimport pandas as pdimport redata=pd.read_csv(r'D:\BaiduNetdiskDownload\shanghai_all_districts(1).csv')while True: x=input('请输入要匹配的标签') #输入q退

2022-04-06 22:23:27 2036

原创 Docker(安装docker,相关命令)

文章目录资料链接一.安装Docker二.相关命令2.1服务2.2镜像2.3容器三.数据卷资料链接视频:https://www.bilibili.com/video/BV1wR4y1E718?p=5一.安装Docker安装Docker# 1、yum 包更新到最新 yum update# 2、安装需要的软件包, yum-util 提供yum-config-manager功能,另外两个是devicemapper驱动依赖的 yum install -y yum-utils device-mappe

2022-02-14 12:09:54 637

原创 python数据可视化(matplotlib,seaborn,plotly)

文章目录Matplotlib绘图基础Matplotlib绘图基础import numpy as npimport matplotlib.pyplot as plt#确保图形能正确展示处理%matplotlib inlinex=np.linspace(0,100,1000)y=np.sin(x)#plt.plot()绘制折线图#c线条颜色 lw线条宽度 ls线条风格#plt.show()展现图形plt.plot(x,y,c='red',lw=2,ls='--')plt.show()

2022-01-06 13:33:48 6422 16

原创 Python int too large to convert to C long

报错在用python 的matplotlib库绘制折线图时我报了这个错误Python int too large to convert to C long解决方法win+R然后输入cmd,再输入pip install --upgrade matplotlib然后问题就解决了

2022-01-01 10:52:36 1175 12

原创 python pandas把.npz文件转为xlsx,csv文件

国民经济核算季度数据链接:https://pan.baidu.com/s/1tMwXLWopQ5hKVKAZ2zNRBg 提取码:pqiy我需要一份.xlsx的国民经济季度核算数据,但是在网上只找到了.npz文件,所以用python的pandas模块进行了处理转换为.xlsx文件file = np.load('国民经济核算季度数据.npz',allow_pickle=True)columns = file['columns']values = file['values']from pandas

2021-12-29 11:28:07 6887

原创 sqoop报Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient

报错:在执行 sqoop --options-file profileconf2时报Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClientException in thread “main” java.lang.RuntimeException: org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.RuntimeExcept

2021-12-04 21:15:06 682

原创 树和二叉树

文章目录一.树的基本概念二.二叉树一.树的基本概念树的总结点数=总度数+1=20×4+10×3+1×2+10×1+1=123总结点数=度为0的结点数+度为1的结点数+度为2的结点数+度为3的结点数+度为4的结点数度为0的结点数就是叶子结点数123-20-10-1-10=82二.二叉树...

2021-12-03 18:58:59 1325 2

原创 python词云图

数据:链接:https://pan.baidu.com/s/1tF2MEy-ZDOCexR1JHA7DnQ提取码:6kxmimport pandas as pd#CalThreeKingdoms.pyimport jiebatxt=open("D:/2.txt",'r',encoding="utf-8").read()words=jieba.lcut(txt) #jieba库函数count={} #创建字典for word in words: if len(word)==

2021-11-28 12:47:24 2926

原创 python爬虫招聘网站(智联)

爬虫目标要求:搜索“大数据”专业,爬相关公司的招聘信息。列数不少于10列,行数不少于3000 。目标:搜索“大数据”,爬取智联招聘北京市 职位名称,企业名称,薪资,城市,学历要求,招聘人数,经验要求,公司规模,公司性质,详情页链接https具体过程登录网站,搜索大数据,右键查看网页源代码Ctrl+F搜索大数据工程师,发现部分数据在网页源代码中职位名称,企业名称,薪资,城市,学历要求,经验要求,公司规模,公司性质,详情页链接https招聘人数在详情页可以看到,在源代码里看不到所以可用

2021-11-21 16:18:07 12684 16

原创 python pandas读取文件夹里的所有csv文件

把读取完的Dataframe合并为一个Dataframe。

2021-11-15 20:34:39 4918

原创 Hadoop高可用HA启动顺序

master,slave1,slave2,zookeeper启动cd /usr/zookeeper/zookeeper-3.4.10/bin/zkServer.sh start bin/zkServer.sh statusmaster,slave1,slave2启动 JournalNode 进程cd /usr/hadoop/hadoop-2.7.3sbin/hadoop-daemon.sh start journalnodemaster ,slave1启动守护进程 zkfcsbin/ha

2021-11-11 19:33:07 2259

原创 Exception in thread “main“ java.lang.NoClassDefFoundError: org/apache/hadoop/yarn/util/Apps at java

用myeclipse运行Hadoopword count程序时报错Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/yarn/util/Apps at java.lang.ClassLoader.defineClass1(Native Method) at java.lang.ClassLoader.defineClass(ClassLoader.java:763) at java.securit

2021-11-02 23:35:41 1689 1

原创 UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xba in position 45: invalid start byte

在用pip install安装tensorflow包时出现错误Failed building wheel for termcolorUnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xba in position 45: invalid start byte解决方法找到这个文件夹复制链接打开,删掉这个文件 termcolor.py再删掉与tensorflow有关的文件然后从官网下一下需要的版本网站链接:https://www.lf

2021-10-20 23:24:56 1183

原创 pandas基本操作

文章目录SeriesSeries导包from pandas import Series,DataFrameimport pandas as pd创建series,左边一列是索引,右边是值,int64是数据类型obj=Series([4,7,-5,3])obj获取值和索引obj.valuesobj.index指定值和索引创建seriesobj2=Series([4,7,-5,3],index=['d','b','a','c'])obj2通过字典创建值和索引sdata

2021-10-17 23:47:30 519 1

原创 Windows下anaconda安装python虚拟环境

1.安装py3.8虚拟环境conda create -n py3.8 python=3.82.输入y3.查看已有的虚拟环境conda info -e4.激活并使用py3.8虚拟环境conda activate py3.8

2021-10-10 21:56:25 102

原创 Leetcode简单 21.合并两个有序链表

题目题目:将两个升序链表合并为一个新的 升序 链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。题目链接:https://leetcode-cn.com/problems/merge-two-sorted-lists/示例一:输入:l1 = [1,2,4], l2 = [1,3,4]输出:[1,1,2,3,4,4]示例二:输入:l1 = [], l2 = []输出:[]示例三:输入:l1 = [], l2 = [0]输出:[0]提示:两个链表的节点数目范围是 [0, 5

2021-10-10 12:44:19 87

原创 全国大学生大数据技能竞赛(Spark on Yarn安装)

系列文章目录全国大学生大数据技能竞赛(数仓部署)全国大学生大数据技能竞赛(Hadoop集群搭建)

2021-08-30 20:31:01 3381 18

原创 Leetcode简单 1.两数之和(哈希)

文章目录题目代码题目题目:给定一个整数数组 nums 和一个整数目标值 target,请你在该数组中找出 和为目标值 target 的那 两个 整数,并返回它们的数组下标。你可以假设每种输入只会对应一个答案。但是,数组中同一个元素在答案里不能重复出现。你可以按任意顺序返回答案。示例 1:输入:nums = [2,7,11,15], target = 9输出:[0,1]解释:因为 nums[0] + nums[1] == 9 ,返回 [0, 1] 。示例 2:输入:nums = [3,

2021-08-28 17:22:00 212 6

原创 贪心法,分治法,动态规划,回溯法,枚举法,分支限界法

2021-08-27 22:49:12 494 2

数据是来自某招聘网站的数据分析师的岗位招聘信息; 包含城市:上海,深圳,北京,广州,杭州等

对数据中的公司福利做了一定处理,https://blog.csdn.net/qq_52691614/article/details/127164781?spm=1001.2014.3001.5501

2022-10-04

apache-storm-2.4.0.tar.gz

帮助不能下载apache-storm-2.4.0.tar.gz的同学下载storm安装包

2022-06-20

python Pyecharts的基本绘图

日历图,漏斗图,仪表盘,水球图,关系图,平行坐标系,饼图,极坐标系,桑基图,主题河流图,词云图等图,更加详细的绘图推荐去看pyecharts官网

2022-04-11

Python数据分析与应用(基础版V2) (4).rar

主要是numpy和pandas的常用操作

2022-01-15

小型超市管理系统.rar

用python写的小型超市管理系统,包括前台销售系统和后台管理系统,消费者有购买商品,查看自己的订单,退货等功能,后台管理员有,管理消费者的账户,进货,查看自己账户余额,订单管理等功能

2021-08-09

滑块验证通过selenium爬取京东代码

滑块验证,通过selenium,爬取京东代码

2021-06-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除