cyber_1987-CSDN博客

原创【WSL】单机大模型前的基础环境配置

在默认pip的时候，连接的是外网，速度比较慢，所以我们需要修改成国内的镜像源（比如清华、豆瓣等），可以在WSL。这里参考文章就行，但是需要注意的是：在当中需要手动创建文件夹，否则会提示“系统找不到指定的路径”Github经常会连不上，需要指定hosts解决，否则用git下载的时候会报错。hosts路径：C:\Windows\System32\drivers\etc。在新创建的文本中，复制黏贴以下文本并ESC-:wq退出保存。上图是修改镜像源后的下载速度（原来大概只有1/10的速度）

2024-04-21 14:54:53 1050 2

原创【WSL】在WIN11安装并使用Linux子系统（Ubuntu）

最近买了4060Ti 16G，可以尝试在本地实验大模型。一开始尝试使用Vmware搞Linux，发现没有办法加载GPU（或者另外有办法没找到）。所以只剩下了两条路：要么搞双系统，要么使用WSL（Windows Subsystem for Linux）。在其中碰到了很多坑，所以特此记录。Win11安装Linux子系统 - 2023简易方法说明WSL安装与配置Windows安装WSL2并下载配置Ubuntu。

2024-04-14 08:58:24 19787 5

原创【大模型-第一篇】在阿里云上部署ChatGLM3

本文主要是让大家能快速完成ChatGLM3在阿里云上的部署

2023-11-10 08:59:02 11459 42

原创【Python】通报和点评自动化

这次自动化需求，主要是需要点评，用Excel很难办到，SQL和VBA都可以，但要写很多很多脚本，所以思前想后还是用Python吧。

2022-06-03 22:20:20 977 3

原创 VBA：把每隔一行自动添加N行空白行

思路：新建一个sheet，把表头和第二行先复制黏贴过来，然后从第三行开始遍历，每复制黏贴一行后再往下延N行，直至把原表数据完全复制完毕1、辅助函数Sub create_sheet(i As String)'' 宏3 宏'' On Error GoTo 999 Sheets("新sheet").Select Cells.Select Application.CutCopyMode = False Selection.Delete Shift:=xlUp

2022-02-06 13:14:52 3705

原创【Tensorflow2】使用简单的CNN网络实现图像分类

不废话，直接上代码…一、数据读取和构建数据集import osimport pandas as pdimport numpy as npimport tensorflow as tfimport warningswarnings.filterwarnings('ignore')from tensorflow.keras.preprocessing import image_dataset_from_directorytrain_dir = '/home/workspace/train/'

2021-11-30 18:24:09 3390

原创【Tensorflow 2】使用迁移学习（MobileNet）完成图像分类任务

前言：图像分类是CV领域相对比较成熟的一种技术，一般从基础开始学就是Tensorflow——>CNN——>手撸ResNet等算法——>迁移学习。Tensorflow.keras.applications中有很多迁移学习的算法，只需要加载后下载参数，然后fine_tune稍微训练最后几层，就可以获得非常不错的效果。本文主要是通过一系列代码指导大家如何完成迁移学习的使用。一、导入数据，制作dataset因为是图片，所以我们首先就是需要把图片转换成Tensorflow能理解的向量形式。另

2021-11-28 19:36:35 5546 13

原创【TextCNN完整版】快速+高准确率的baseline

前言：2个月前写过一篇《TextCNN的完整步骤（不到60行代码）》，但是并没有考虑到后续工程化部署以及数据量较大的情况（无法全部加载到内存里），所以今天根据实际案例做了一次改造和优化。TextCNN的操作步骤一般可以分为以下几步：1、数据整理：日常工作中的文本可能不像比赛一样直接给你一个csv文件，你可能需要自己整合起来；另外textcnn在训练和预测时，不认分类变量（如上海, 北京等），所以必须通过map或label_encoder的方式修改，到最后样本预测结束后再map_reverse回去。2

2021-11-27 22:48:38 2912

原创机器学习：XGBoost+LightGBM+catboost+5折+stacking的用法

前言：目前传统机器学习的比赛中，基本是树模型打天下了，xgboost、lightgbm和catboost各有优劣，如果把三者结合起来，即使使用投票效果也会很好。另外如果再使用5折交叉验证的方法（KFold），同时使用oob（out of bag，袋外值）作为训练集，xgb、lgb和cat对test的结果作为验证集，再使用stacking的方法，那么模型成功率和稳定率将会大大提升。本文以代码为主，主要讲述这一系列工作该如何做。注：数据使用的是清洗干净的纯数字、无缺失、无杂音，而且树模型还不需要数据标准化，

2021-11-27 16:06:48 10610 9

原创 Python：使用SHAP库将前N个重要特征提取出来

前言：机器学习很大一个问题是可解释性较差，虽然在RandomForest、LightGBM等算法中，均有feature_importance可以展现模型最重要的N个特征，但是对于单个样本来说情况可能并不与整体模型一致，所以就需要使用SHAP等算法将每个样本中不同特征的贡献度用数值展现出来。对于SHAP算法的原理和其它同类算法可以看这2篇博客： https://blog.csdn.net/weixin_41968505/article/details/119885046 https://zhuan

2021-11-20 14:43:03 14562 7

转载【转载】jupyter notebook中import matplotlib一直失败

这两天在阿里云虚机上使用jupyter notebook学习pyspark，里面有一段代码是需要使用matplotlib的，但是import matplotlib一直失败，提示：ModuleNotFoundError: No module named 'matplotlib.pyplot'尝试了在终端里pip uninstall matplotlib -ypip install matplotlib亦或者重启jupyter notebook，均失败告终想到了是matplotlib安装目录不一

2021-10-13 11:07:19 2255 1

原创 ResNet18代码实现（tensorflow，80行）

前言：ResNet18的实现还是相对比较简单的，一共就18次卷积，从数据加载到最后完成验证不到80行import tensorflow as tfimport pandas as pdimport numpy as npfrom tensorflow.keras import layersfrom sklearn.metrics import classification_reportimport warningswarnings.filterwarnings('ignore')#数据导

2021-08-13 15:12:19 4415 6

原创 TextCNN的完整步骤（不到60行代码）

前言：TextCNN对于字符串长度不是很长（20个字符以下）的文本分类效果较好，比如要通过新闻标题对新闻种类进行分类，就可以使用TextCNN，主要的步骤如下：1、导入数据 read_csv2、jieba分词（中文）3、建立词库 Tokenizer.fit_on_texts4、把词转换成数字编号 Tokenizer.texts_to_sequences5、规整单个sentence的长度 pad_sequences6、构建textcnn主函数并训练7、predict出最后结果注：我也没有数据

2021-08-13 13:22:02 1390

原创利用Python做excel文本合并（根据左侧单元格，快速合并右侧单元格内容）

前言：昨天获得一个数据处理的小需求，比较简单，用VBA也能做，不过最近Python用的比较多，所以用Python写了，效率也很快。需求：有一张总表，如下图所示需要根据左侧的工号和姓名，合并右侧获奖情况，结果如下图解决思路：其实比较简单，在leetcode里应该是最简单的初级题目，但是考虑到时间复杂度，如果用两层循环遍历的话，数据量大起来效率会很低，所以我使用了Pandas里面的筛选功能，基本在4秒内就完成了整个数据处理工作（数据量1700条）代码：import pandas as pdi

2021-06-11 09:54:08 1516 2

原创使用Tf-idf快速进行文本场景分类

好久没写技术文章了，这一年来都在做管理工作，技术都荒废了，最近因为重心调整重新捡起来，希望能快速赶上。本篇文章主要是因为最近在给公司某个单位做投诉文本分类，也就是比较常见的NLP场景，方法有很多，比如Bert，LSTM等，但是我没玩过这些，所以还是先用最简单的Tf-IDF来。注：数据样本因为保密要求，所以不可能分享，大家如果想要学习的话，可以到豆瓣之类的网站爬取评论，效果是类似的。一、加载数据并剔除小样本或无效数据import pandas as pdimport numpy as npimpo

2021-05-31 10:43:56 1775 1

原创上海满五非唯一，非普通性住房计算

最近有买房需求，但是上海基本都是非普通性住房，税费很高，所以记录一下，同时写了相关的公式方便计算。目前已知税费包括：1、契税：3%2、营业税（增值税）：差额的5.65%注：如果不满五，则为全额的5.65%3、个人所得税：差额的20%或总价的2%注：因为不是唯一，所以要缴纳个人所得税4、中介费：暂定1.5%#以下两个数值会变动this_buy = 350 #本次系统购入价true_buy = 540 #本次实际购入价#以下两个数值已知cash = 600 #现金last_buy =

2021-05-05 15:06:09 1301 1

原创如何从苹果手机中导出视频且保证画面不失真

最近买了iPhone 12，因为工作需要需要导出视频，但是手机连上电脑后，如何导出视频且保证清晰度是个问题，尝试了一下，特此记录，供大家参考！1、手机设置设置——相册——“传输到MAC或PC”，选择“保留原片”如何不这样设置的话，超过一定大小（好像是200M）的视频就无法导出2、导出视频如果装好了itunes，连上pc后，应该在下图位置找到iPhone相册入口3、转换格式直接导出后的画面失真严重（颜色偏黄），如下图所示我一开始以为是导出的时候导致画面变色，尝试了itools导出、钉钉导

2020-12-02 20:45:37 32899 3

原创 Python：批量提取文本中的共性部分并转化为正则表达式

前言有一种竞赛需要：有5万条html文本，是由30个模板结合一个地址库结合起来的，每个模板里都有5-7个位置可以选择插入或不插入地址，地址分为6级：province（省）、city（市）、district（区）、township（镇）、street（街）、street_num（街号）。因为模板里分为right（真实的辅助地址）、wrong（错误的干扰地址）和main（street+street_num的主要地址）三种位置，所以需要对地址进行提取。常规的做法是将地址库进行全文检索，并根据某种规则判断出ri

2020-10-18 10:15:25 1564 1

原创 Hadoop：单机伪分布式安装

一、系统安装这里就不详细讲了，之前的《Linux：虚拟机安装Linux、Hadoop的相关操作》已经详细讲过了，这里有2点需要注意一下：1、系统安装用Min最小化即可，相信我，你根本用不着GUI；2、网络如果用主机模式我碰到很多Bug，所以干脆用了nat模式，啥问题都没了。二、Java、Hadoop安装和配置1、查看ip地址ifconfig获得我的虚机Ip地址是：192.168.253.1322、登录xftp和Xshell 7并上传jdk和hadoop的jar包3、关闭防火墙sy

2020-08-19 22:32:50 422

原创 Matplotlib：解决批量制图时的内存不够问题（Out of memory）

前言：前一篇博客完成了经纬度画图的代码设计，现在需要批量生成不同路的图片，共计2000多张。但是在画图时，画到50张就会内存达到100%，且出现“MemoryError: In RendererAgg: Out of memory”的错误。在网上找了一些帖子，终于找到标准答案：1、fig = plt.figure() 放在for循环的外面；2、在每次循环开始阶段，加入plt.cla()（清除当前图形中的当前活动轴）；代码：import pandas as pdimport numpy as

2020-08-15 14:05:28 6358

原创 Matplotlib：使用Python根据获得的经纬度坐标画图

前言因为根据地址库的经纬度坐标很难肉眼看出规律，所以想画个图看看。网上看了很多文章，大多都是基于标准地图的，但我只是想画个相对的坐标图就好。所以干脆就用matplotlib自己写一个吧。代码import pandas as pdimport numpy as npimport mathimport matplotlib.pyplot as pltdata = pd.read_csv('复赛标准地址库.csv', sep='\t', dtype={'locationx':'str', 'l

2020-08-09 17:10:11 20130 4

原创 Pandas:关于pandas中筛选的效率测试

前言上一篇说到，最近我在做地址匹配的一个竞赛，目前陷入了瓶颈，所以想从pandas效率上玩玩。比如给出一个切分好的地址列表，如[‘福建省’, ‘厦门市’, ‘思明区’, ‘梧村街道’, ‘湖滨南路’]，需要将这个地址在140+万条数据的地址库里筛选出满足条件的所有地址，应该怎么做呢？一、常规方法最常规的方法肯定是直接使用pandas里面的筛选方法，如下面代码所示可以看到用时大概在843毫秒左右这个方法的好处是书写简单，无脑&就可以了，但是如果当中某个对象可能是空的而且需要同时对很多地址

2020-08-09 08:55:05 3798 1

原创爬虫：东方财富网股票数据爬取

前言因为东方财富网的Js限制，第一页很好爬取，但是第二页开始的网页地址并没有改变，看了下xpath页面元素也和第一页没什么区别，所以只好曲线救国，用selenium找到“下一页”按钮进行跳转再爬取，好处是肯定都能爬到，坏处则是必须一直开着chromedriver，而且爬取效率并不高。代码from selenium import webdriverfrom time import sleepimport mysql.connector as mysql'''爬取上证指数的所有股票信息，保存到本地

2020-07-26 12:05:27 17592 9

原创 BAT：一键切换Windows IP地址

参考文章：https://www.jb51.net/article/48078.htm修改说明：我在原来代码的基础上修正了一些，包括@netsh int ipv4 set address "以太网" static 192.168.1.27 255.255.254.0 192.168.1.254 1 >nul我把ip改成了ipv4，还有address后面的“以太网”是要根据自己电脑实际情况来修改的最后我加了一个pause，这样bat窗口不会立马关掉@echo offrem # --

2020-07-10 09:31:58 4195 3

原创云主机Centos7下WordPress部署指南

参考文章：https://blog.csdn.net/qq_25504829/article/details/104254788一、天翼云安全组添加端口控制中心——>虚拟私有云——>访问控制——>安全组——>选择default，点击“快速添加规则”，在入方向和出方向分别加入新的端口号2020，如下图所示：二、Apache安装1、安装lrzsz和vim（可选）yum -y install lrzszyum -y install vim2、安装apache服务yum

2020-07-08 20:04:10 1091

原创 Python：从文章内提取地址

前言：如何从文章内提取地址？方法有很多种，我这边提一个我的思路。1、整理一份标准地址库，至少包括以下几列：省、市、镇、街道、路。有人会说整理很难，没错，很难找到成熟的地址库（这种都是能卖Q的），通过政府官网可以获得的数据也仅仅是省、市、镇、街道/居委之类的，如果要整理成一份详尽的，难度很高。以上海为例，我主要是通过百度文库获得了一份相对来说比较全的地址库，但也仅仅是路和区的对应表，无法整理到镇或街道。所以我又在上海统计局官网中找到了居委会和区的对应表，经过多次整理获得一份相对比较准确的清单。2、

2020-06-22 16:49:14 4079 2

原创 Python：快速裁剪PDF页面

前言收到一份很大的pdf文档，想根据页数快速裁剪，但是没找到能够免费试用的软件（不是要vip就是要重置），所以就用Python的PyPDF2这个库。主要参考了https://blog.csdn.net/xingxtao/article/details/79056341自己稍微修改了一点代码from PyPDF2 import PdfFileReader, PdfFileWriterdef splitPdf(readFile, outFile, start_page, end_page):

2020-06-17 13:37:27 3212 1

原创 VBA：根据某个单元格的值，判断在另一个单元格内是否有并标红

前言：最近在做一个地址标准化的竞赛，里面包括了地址提取、分词、清洗、匹配等一系列动作，等这次竞赛结束后会专门写一篇文章分享源码。之所以要做标题的事情，是因为用了这么多年的Excel，还是习惯Excel的界面，而且因为这次初赛数据量并不大（500条），分数也达到了了一个瓶颈（98.2分），不清楚应该如何提升，所以就想一条条看看到底错在那里。第一步就是要判断提取出来的地址是否准确。如上图所示，我想要的结果就是根据C列，判断B列里是否有一样的内容，如果有的话就用红色标记，使用VBA很简单，不过也查了蛮多资料

2020-06-09 10:07:03 4983 1

原创经验分享：数据分析的五个阶段

前言数据分析，也被称为营销分析、经营分析等，就是通过一定的工具、算法，结合业务逻辑将数据背后的真正原因找出来，为企业的发展方向提供数据支撑。在这个越来越对数据重视的时代，数据分析的价值也在迅速提升。在大部分部门，尤其是前端营销部门中，数据分析工作的好坏可能会直接影响一线的业绩。所以如何做好数据分析，是每一个数据分析师需要思考的问题。笔者在10年的数据分析工作生涯中，经历了好几个阶段，也有一些思考和总结，供大家参考。

2020-05-29 10:40:03 2517 1

原创 Python：调用百度地图和高德地图API获得信息检索结果

前言不管是百度地图还是高德地图api，在个人开发者认证完成之前的每日调用配额低得可怜，认证通过后每日可以在信息检索上，每日上限是30万，并发量可以达到50，所以必须认证！代码import requestsimport jsonimport openpyxldef get_bd_address(keyword): '''通过百度地图api获得信息''' url = 'http://api.map.baidu.com/place/v2/search?query=' + keywor

2020-05-25 16:49:44 1149

原创 Python：好租网商务楼数据爬取

前言：爬的方法和以前房天下类似，只是在使用next_sibling的时候一直不成功，所以先找了parent然后再找儿子的方式曲线救国解决了。因为我的需求只是名字、区域、地址和楼层四个，所以参数不多，需要的可以自己在我的代码基础上增加。代码：import requestsfrom bs4 import BeautifulSoupdef get_building_url(url): '''获取每一页的大楼的内容（名称和链接）''' r = requests.get(url=url,

2020-05-21 20:51:43 1401

原创 Pandas：把一份清单数据按时间序列转为dict、list的混合样式

前言：标题很难懂，直接上个例子吧。上图为原始数据，想要转为下面的格式：{‘用户1’: [{第1天的发帖量，第2天的发帖量…第31天的发帖量}, {第1天的投票数合计，第2天的投票数合计…第31天的投票数合计}, {第1天的收入合计，第2天的收入合计…第31天的收入合计}]}很复杂吧，我也不明白整理成这样格式的意义是什么=，=下面的代码只把用户和收入的dict做出来了，如果要把投票数和发帖量结合起来，使用pandas里的concat，外面再套一层to_dict就可以了，方法一样，不想多写~~代码

2020-05-20 15:01:12 622

原创 Python：通过百度地图API快速获取路对应的行政区域

前言：最近在做地址标准化的工作，其中一项子任务就是要做地址库，根据内部数据结合前期从网上获取的地址库，计算获得一堆新的路名（未纳入地址库），接下来的工作就是要判断这个新的路名是否跨区域，如果不跨的话属于哪个区？一开始是通过百度地图一个个搜索的，但是架不住量太大（超过100个），而且后期有可能还会不断有新增。所以干脆用百度API的交叉路搜索，获取该路和其它所有路的交叉信息。以“浦东南路”为例，交叉路口就有900条记录，例如“洪山路与浦东南路交叉口”，把这些记录全部获取后筛选其中的“address”字段，也

2020-05-18 13:09:25 3354

空空如也

空空如也