铃音.-CSDN博客

原创 kafka入门

分区是线性增长的，当消息存到kafka分区里，就不可变更，kafka会为每个消息分配一个偏移量，也就是offset，offset会记录每条消息的位置，kafka可通过偏移量对消息进行提取，但没法对消息的内容进行检索和查询。偏移量在每个分区中是唯一的，不可重复，递增的。kafka中的消息存在topic中，也就是主题，类似于数据库中的表，通常我们将相同类型的消息存放在一个主题中。主题可以包含多个分区，kafka是分布式的消息系统，可以将不同的分区存到不同的服务器上，这样就使得kafka具有拓展性。

2024-03-29 11:27:54 476

原创 Python 枚举（Python Enumerations）

使用枚举常量在这个示例中，我们使用 auto() 函数为枚举常量自动生成连续的值。这样可以避免手动为每个枚举常量赋值，并确保每个值在枚举中是唯一的。

2024-03-19 16:45:50 710

原创 python单例模式

单例模式（Singleton Pattern）是一种设计模式，它确保一个类只有一个实例，并提供一个全局访问点来访问该实例。这个模式通常用于那些需要在整个应用程序中共享一个公共资源的情况，例如日志记录器、数据库连接、线程池等。单例模式的主要特点包括：单一实例：一个类只能有一个实例存在。全局访问点：提供一个公共的访问点，允许其他对象在程序中访问这个单例实例。

2024-03-19 16:40:03 440

原创 Python 异步编程（Async/Await）

Python 中的异步编程是一种编程模式，它允许程序在等待 I/O 操作（如网络请求、文件读写等）的同时继续执行其他任务，而不会阻塞整个程序。这种方式可以提高程序的效率和响应性。在 Python 中，异步编程的核心概念是使用 async 和 await 关键字来定义异步函数和执行异步操作。

2024-03-19 16:18:56 869

原创 xpath用法

如果路径以双斜线 // 开头, 则表示选择文档中所有满足双斜线//之后规则的元素(无论层级关系)方块号里的表达式可以进一步的指定元素, 其中数字表示元素在选择集里的位置, 而last()函数则表示选择集中的最后一个元素.

2023-12-20 17:23:58 1138 1

原创 pandas读取csv文件（分隔符是一个或者多个空格）

如果遇到csv文件不是以逗号分隔，也不是以一个空格分隔，也不是 \t 分隔，里面提到可以修改sep参数为正则表达式来作为分隔符。但是又是有规律的分隔，就像下面这种。也就是说可以这样来读取文件。可以去掉索引，看的更方便。可以修改sep参数为。

2023-10-10 10:47:50 3434

原创深度学习-了解

当输入信号被送往神经元时，分别乘以各自的权重，然后加总，如果总和超过阈值 𝜃 ，则𝑦的输出为 1 ，否则为 0。通过使用随机子集，可以在每次迭代中使用不同的样本来计算梯度，从而减少计算开销，并引入一定程度的随机性。总之，激活函数在神经网络中起到了非常重要的作用，通过引入非线性变换和增强表达能力，它使得神经网络可以学习和表示复杂的非线性关系，从而提高了网络的建模能力。全连接是指神经网络模型中，相邻两层单元之间的连接方式，使用全连接方式时，网络当前层的单元与网络上一层的每个单元都存在连接。

2023-10-07 10:40:29 459

原创对本地的静态html文件发送http请求

文件链接：D:/mystudysoft/weixinkaifa/WeChat%20Files/wxid_inmlsqlnnpqs22/FileStorage/File/2023-09/%E5%BE%B7%E5%9B%BD%E4%BA%A4%E9%80%9A%E6%A0%87%E5%BF%97%E8%AF%86%E5%88%AB/dist/build/h5/static/js/pages-index-index.ac96133b.js。前端的文件基本都有。是一个js文件，html文件同理。

2023-09-21 12:02:19 1220 2

原创使用scp命令失败出错

这些是SCP的一些常见用法示例。请注意，上述命令中的/path/to/local/file和/path/to/remote/file是文件的路径，/path/to/local/directory和/path/to/remote/directory是目录的路径。username是远程服务器的用户名，remote是远程服务器的地址或主机名。SCP（Secure Copy）是一个用于在本地主机和远程服务器之间进行安全文件传输的命令行工具。使用scp命令失败出错，无反应。再次尝试scp命令。

2023-09-15 10:15:09 2663

原创 The kernel appears to have died. It will restart automatically.

OMP：提示这意味着OpenMP运行时的多个副本已链接到程序中。最好的做法是确保只有一个OpenMP运行时链接到进程中，例如避免在任何库中静态链接OpenMP运行库。作为一种不安全、不受支持、未记录的解决方法，您可以将环境变量KMP_DUPLICATE_LIB_OK=TRUE设置为允许程序继续执行，但这可能会导致崩溃或无声地产生不正确的结果。有关更多信息，请参阅http://www.intel.com/software/products/support/.查看 anaconda prompt。

2023-08-15 14:57:14 393

原创卷积神经网络

感受野(Receptive Field)：每一个视觉神经元只会处理一小块区域的视觉图像。人类的视觉原理如下：从原始信号摄入开始（瞳孔摄入像素Pixels），接着做初步处理（大脑皮层某些细胞发现边缘和方向），然后抽象（大脑判定眼前的物体的形状是圆形的），然后进一步抽象（大脑进一步判定该物体是只气球）。对于不同的物体，人类视觉也是通过这样逐层分级来进行认知的：最底层特征基本上是类似的，就是各种边缘；越往上，越能提取出此类物体的一些特征（轮子、眼睛、躯干等）；

2023-08-02 21:06:48 1128

原创神经网络原理概述

感知器，接收若干个输入，产生一个输出的结果，这个结果就代表了感知器所做出的决策。如图，圆圈表示一个感知器，它可以接收多个输入，产出一个结果，结果只有两种情况，“是”与“否”。感知器内部决策的原理，其实就是给不同的因素赋予不同的权重（重要性）。然后设置一个阈值，如果加权计算之后的结果大于等于这个阈值，就说明可以判断为是，否则就是否。所以感知器本质上就是一个通过加权计算函数进行决策的工具。单层感知器是一个只有一层的神经元。

2023-08-01 20:47:25 1285

原创 python pandas读取文件夹并把文件夹里面的所有txt文件转为dataframe

有一个名为neg的文件夹里面有neg.0.txt到neg.2999.txt，3000个txt文件，每个txt不一定仅有一行内容，有一个名为pos的文件夹里面有pos.0.txt到pos.2999.txt，3000个txt文件，每个txt不一定仅有一行内容,怎么用python pandas读取文件夹里面的txt文件并且把每个txt文件转为dataframe的某一列的一行内容。去掉txt文件里的换行符和空格。数据为酒店评论语料。

2023-05-26 08:38:27 1604

原创使用python的cartopy库读取shapefile文件 .shp文件是乱码

打开后只要在左上角位置输入需要的行政区划范围名称，就可以快速获取到该范围的矢量底图数据。提供的获取方式有JSON API，也可以直接下载geojson或者svg格式。使用python 用这个.json文件生成一个.shp，也就是shapefile文件，并且指定编码，问题即可解决。使用python的cartopy库读取shapefile文件即.shp文件乱码。我在使用python的cartopy库读取shapefile文件时出现了乱码。record的.attributes的[‘name’]都是乱码。

2023-04-22 21:36:19 2248 3

原创 anaconda ( jupyter notebook ) 安装 Cartopy库

Cartopy 也是一个 python 地图绘制包，同样能完成很多 Basemap 能实现的功能，而且旨在使数据分析及可视化尽可能简单。其利用了强大的 PROJ.4，numpy，shapely库，提供了简单直观的绘图接口，可以创建满足出版质量的地图。Cartopy 是一个开源免费的第三方 Python 扩展包，由英国气象办公室的科学家们开发，支持 Python 2.7 和 Python 3，致力于使用最简单直观的方式生成地图，并提供对 matplotlib 友好的协作接口。4.安装cartopy库。

2023-04-19 09:26:07 4162 2

原创 matplotlib设置中文字体为微软雅黑

如何在linux系统下让matplotlib显示中文？“巴西”: [-47.55, -15.47], —1。“坦桑尼亚”: [35.45, -6.08], —1。“罗马尼亚”: [26.10, 44.27], —1。“意大利”: [12.29, 41.54], —1。“俄罗斯”: [37.35, 55.45], —3。“文莱”: [115.00, 4.52], —1。“美国”: [-77.02, 39.91],—3。“中国”: [116.20, 39.55],在代码中加入以下代码。

2023-04-18 09:30:41 1588

原创 anaconda ( jupyter notebook ) 虚拟环境安装 lazypredict

进入 D:\mystudysoft\Anaconda3\envs\py3.9\Lib\site-packages\lazypredict 目录下。5.将虚拟环境py3.9导入jupyter的kernel中(自己设置显示的名字为python3.9)4.安装ipykernel （第一次导入虚拟环境的要下载）在 removed_classifiers中修改如下内容。在removed_regressors中修改如下内容。4.删除虚拟环境（py3.9是虚拟环境名）3.查看当前有哪些虚拟环境。修改import部分。

2022-11-30 13:57:00 1407 2

原创 Hive SQL案例

2.计算学历为本科的人员在调查中的占比，结果写入本地/root/college012/。1.计算较高收入人群占整体数据的比例，结果写入本地/root/college011/。4.计算男性群体中高收入职业排行，结果写入本地/root/college014/。7.统计教育程度对于收入的影响，结果写入本地/root/college017/。6.统计性别对于收入的影响，结果写入本地/root/college016/。4.统计表数据,结果写入本地/root/college000/01/中。

2022-11-18 23:23:10 2023 4

原创 B树和B+树（平衡多路查找树）

比如说这个 word 文档右击查看它的属性，虽然大小是46.9KB，但是占用空间是48KB，这是4K的整数倍，也就是磁盘加载数据到内存中都是datapage的整数倍。然后顺着磁盘块1的p2找到磁盘块3，再把磁盘块3加载到内存里面，然后2831，找到磁盘块3的p2了。这大大降低了高度，允许更快的磁盘访问。首先把磁盘上的这个块加载到内存里，1628，找到磁盘块1的p2，这是进行的第一次IO。查找37，根节点是48，48>37，看48的左子树，25

2022-11-01 11:22:44 907 4

原创 pandas处理标签-列表值处理

pandas DataFrame对列表值进行处理。

2022-10-04 19:02:39 597 1

原创 lgb,xgb,cat k折交叉验证

import lightgbm as lgbimport xgboost as xgbimport catboost as cat#传入：模型，训练集x，训练集y，测试集x，模型的名字def cv_model(clf, train_x, train_y, test_x, clf_name): #折叠次数5，随机数种子2020 folds = 5 seed = 2020 #分成4份训练集，1份测试集 kf = KFold(n_splits=folds, shuf

2022-04-21 23:25:15 1239 2

原创 python pandas利用str.extract()方法处理标签

所有标签长这样比如说输入闪订，然后看每一行的全部标签数据里有没有闪订，如果有的话闪订的值计为1，没有的话计为0，总共有9个标签，最后实现了这样的效果import numpy as npimport pandas as pdimport redata=pd.read_csv(r'D:\BaiduNetdiskDownload\shanghai_all_districts(1).csv')while True: x=input('请输入要匹配的标签') #输入q退

2022-04-06 22:23:27 2278

原创 Docker(安装docker,相关命令)

文章目录资料链接一.安装Docker二.相关命令2.1服务2.2镜像2.3容器三.数据卷资料链接视频：https://www.bilibili.com/video/BV1wR4y1E718?p=5一.安装Docker安装Docker# 1、yum 包更新到最新 yum update# 2、安装需要的软件包， yum-util 提供yum-config-manager功能，另外两个是devicemapper驱动依赖的 yum install -y yum-utils device-mappe

2022-02-14 12:09:54 799

原创 python数据可视化（matplotlib,seaborn,plotly）

文章目录Matplotlib绘图基础Matplotlib绘图基础import numpy as npimport matplotlib.pyplot as plt#确保图形能正确展示处理%matplotlib inlinex=np.linspace(0,100,1000)y=np.sin(x)#plt.plot()绘制折线图#c线条颜色 lw线条宽度 ls线条风格#plt.show()展现图形plt.plot(x,y,c='red',lw=2,ls='--')plt.show()

2022-01-06 13:33:48 8233 16

原创 Python int too large to convert to C long

报错在用python 的matplotlib库绘制折线图时我报了这个错误Python int too large to convert to C long解决方法win+R然后输入cmd,再输入pip install --upgrade matplotlib然后问题就解决了

2022-01-01 10:52:36 1342 12

原创 python pandas把.npz文件转为xlsx,csv文件

国民经济核算季度数据链接：https://pan.baidu.com/s/1tMwXLWopQ5hKVKAZ2zNRBg 提取码：pqiy我需要一份.xlsx的国民经济季度核算数据，但是在网上只找到了.npz文件，所以用python的pandas模块进行了处理转换为.xlsx文件file = np.load('国民经济核算季度数据.npz',allow_pickle=True)columns = file['columns']values = file['values']from pandas

2021-12-29 11:28:07 7804

原创 sqoop报Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient

报错：在执行 sqoop --options-file profileconf2时报Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClientException in thread “main” java.lang.RuntimeException: org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.RuntimeExcept

2021-12-04 21:15:06 773

原创树和二叉树

文章目录一.树的基本概念二.二叉树一.树的基本概念树的总结点数=总度数+1=20×4+10×3+1×2+10×1+1=123总结点数=度为0的结点数+度为1的结点数+度为2的结点数+度为3的结点数+度为4的结点数度为0的结点数就是叶子结点数123-20-10-1-10=82二.二叉树...

2021-12-03 18:58:59 1883 2

原创 python词云图

数据：链接：https://pan.baidu.com/s/1tF2MEy-ZDOCexR1JHA7DnQ提取码：6kxmimport pandas as pd#CalThreeKingdoms.pyimport jiebatxt=open("D:/2.txt",'r',encoding="utf-8").read()words=jieba.lcut(txt) #jieba库函数count={} #创建字典for word in words: if len(word)==

2021-11-28 12:47:24 3213

原创 python爬虫招聘网站（智联）

爬虫目标要求：搜索“大数据”专业，爬相关公司的招聘信息。列数不少于10列，行数不少于3000 。目标：搜索“大数据”，爬取智联招聘北京市职位名称，企业名称，薪资，城市，学历要求，招聘人数，经验要求，公司规模，公司性质，详情页链接https具体过程登录网站，搜索大数据，右键查看网页源代码Ctrl+F搜索大数据工程师，发现部分数据在网页源代码中职位名称，企业名称，薪资，城市，学历要求，经验要求，公司规模，公司性质，详情页链接https招聘人数在详情页可以看到，在源代码里看不到所以可用

2021-11-21 16:18:07 13670 17

原创 python pandas读取文件夹里的所有csv文件

把读取完的Dataframe合并为一个Dataframe。

2021-11-15 20:34:39 5763 1

原创 Hadoop高可用HA启动顺序

master,slave1,slave2,zookeeper启动cd /usr/zookeeper/zookeeper-3.4.10/bin/zkServer.sh start bin/zkServer.sh statusmaster,slave1,slave2启动 JournalNode 进程cd /usr/hadoop/hadoop-2.7.3sbin/hadoop-daemon.sh start journalnodemaster ,slave1启动守护进程 zkfcsbin/ha

2021-11-11 19:33:07 2417

原创 Exception in thread “main“ java.lang.NoClassDefFoundError: org/apache/hadoop/yarn/util/Apps at java

用myeclipse运行Hadoopword count程序时报错Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/yarn/util/Apps at java.lang.ClassLoader.defineClass1(Native Method) at java.lang.ClassLoader.defineClass(ClassLoader.java:763) at java.securit

2021-11-02 23:35:41 1828 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

数据是来自某招聘网站的数据分析师的岗位招聘信息； 包含城市：上海，深圳，北京，广州，杭州等

apache-storm-2.4.0.tar.gz

python Pyecharts的基本绘图

滑块验证通过selenium爬取京东代码

Python数据分析与应用（基础版V2) (4).rar

小型超市管理系统.rar

空空如也

数据是来自某招聘网站的数据分析师的岗位招聘信息；包含城市：上海，深圳，北京，广州，杭州等