自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Cyber的博客

专注Python的菜鸟一枚

  • 博客(148)
  • 收藏
  • 关注

原创 【WSL】单机大模型前的基础环境配置

在默认pip的时候,连接的是外网,速度比较慢,所以我们需要修改成国内的镜像源(比如清华、豆瓣等),可以在WSL。这里参考文章就行,但是需要注意的是:在当中需要手动创建文件夹,否则会提示“系统找不到指定的路径”Github经常会连不上,需要指定hosts解决,否则用git下载的时候会报错。hosts路径:C:\Windows\System32\drivers\etc。在新创建的文本中,复制黏贴以下文本并ESC-:wq退出保存。上图是修改镜像源后的下载速度(原来大概只有1/10的速度)

2024-04-21 14:54:53 447 2

原创 【WSL】在WIN11安装并使用Linux子系统(Ubuntu)

最近买了4060Ti 16G,可以尝试在本地实验大模型。一开始尝试使用Vmware搞Linux,发现没有办法加载GPU(或者另外有办法没找到)。所以只剩下了两条路:要么搞双系统,要么使用WSL(Windows Subsystem for Linux)。在其中碰到了很多坑,所以特此记录。Win11安装Linux子系统 - 2023简易方法说明WSL安装与配置Windows安装WSL2并下载配置Ubuntu。

2024-04-14 08:58:24 8173

原创 【大模型-第一篇】在阿里云上部署ChatGLM3

本文主要是让大家能快速完成ChatGLM3在阿里云上的部署

2023-11-10 08:59:02 7816 39

原创 【Python】通报和点评自动化

这次自动化需求,主要是需要点评,用Excel很难办到,SQL和VBA都可以,但要写很多很多脚本,所以思前想后还是用Python吧。

2022-06-03 22:20:20 745 3

原创 VBA:把每隔一行自动添加N行空白行

思路:新建一个sheet,把表头和第二行先复制黏贴过来,然后从第三行开始遍历,每复制黏贴一行后再往下延N行,直至把原表数据完全复制完毕1、辅助函数Sub create_sheet(i As String)'' 宏3 宏'' On Error GoTo 999 Sheets("新sheet").Select Cells.Select Application.CutCopyMode = False Selection.Delete Shift:=xlUp

2022-02-06 13:14:52 3181

原创 【Tensorflow2】使用简单的CNN网络实现图像分类

不废话,直接上代码…一、数据读取和构建数据集import osimport pandas as pdimport numpy as npimport tensorflow as tfimport warningswarnings.filterwarnings('ignore')from tensorflow.keras.preprocessing import image_dataset_from_directorytrain_dir = '/home/workspace/train/'

2021-11-30 18:24:09 3211

原创 【Tensorflow 2】使用迁移学习(MobileNet)完成图像分类任务

前言:图像分类是CV领域相对比较成熟的一种技术,一般从基础开始学就是Tensorflow——>CNN——>手撸ResNet等算法——>迁移学习。Tensorflow.keras.applications中有很多迁移学习的算法,只需要加载后下载参数,然后fine_tune稍微训练最后几层,就可以获得非常不错的效果。本文主要是通过一系列代码指导大家如何完成迁移学习的使用。一、导入数据,制作dataset因为是图片,所以我们首先就是需要把图片转换成Tensorflow能理解的向量形式。另

2021-11-28 19:36:35 4913 13

原创 【TextCNN完整版】快速+高准确率的baseline

前言:2个月前写过一篇《TextCNN的完整步骤(不到60行代码)》,但是并没有考虑到后续工程化部署以及数据量较大的情况(无法全部加载到内存里),所以今天根据实际案例做了一次改造和优化。TextCNN的操作步骤一般可以分为以下几步:1、数据整理:日常工作中的文本可能不像比赛一样直接给你一个csv文件,你可能需要自己整合起来;另外textcnn在训练和预测时,不认分类变量(如上海, 北京等),所以必须通过map或label_encoder的方式修改,到最后样本预测结束后再map_reverse回去。2

2021-11-27 22:48:38 2536

原创 机器学习:XGBoost+LightGBM+catboost+5折+stacking的用法

前言:目前传统机器学习的比赛中,基本是树模型打天下了,xgboost、lightgbm和catboost各有优劣,如果把三者结合起来,即使使用投票效果也会很好。另外如果再使用5折交叉验证的方法(KFold),同时使用oob(out of bag,袋外值)作为训练集,xgb、lgb和cat对test的结果作为验证集,再使用stacking的方法,那么模型成功率和稳定率将会大大提升。本文以代码为主,主要讲述这一系列工作该如何做。注:数据使用的是清洗干净的纯数字、无缺失、无杂音,而且树模型还不需要数据标准化,

2021-11-27 16:06:48 8292 8

原创 Python:使用SHAP库将前N个重要特征提取出来

前言: 机器学习很大一个问题是可解释性较差,虽然在RandomForest、LightGBM等算法中,均有feature_importance可以展现模型最重要的N个特征,但是对于单个样本来说情况可能并不与整体模型一致,所以就需要使用SHAP等算法将每个样本中不同特征的贡献度用数值展现出来。 对于SHAP算法的原理和其它同类算法可以看这2篇博客: https://blog.csdn.net/weixin_41968505/article/details/119885046 https://zhuan

2021-11-20 14:43:03 12061 7

转载 【转载】jupyter notebook中import matplotlib一直失败

这两天在阿里云虚机上使用jupyter notebook学习pyspark,里面有一段代码是需要使用matplotlib的,但是import matplotlib一直失败,提示:ModuleNotFoundError: No module named 'matplotlib.pyplot'尝试了在终端里pip uninstall matplotlib -ypip install matplotlib亦或者重启jupyter notebook,均失败告终想到了是matplotlib安装目录不一

2021-10-13 11:07:19 1885 1

原创 ResNet18代码实现(tensorflow,80行)

前言:ResNet18的实现还是相对比较简单的,一共就18次卷积,从数据加载到最后完成验证不到80行import tensorflow as tfimport pandas as pdimport numpy as npfrom tensorflow.keras import layersfrom sklearn.metrics import classification_reportimport warningswarnings.filterwarnings('ignore')#数据导

2021-08-13 15:12:19 4121 6

原创 TextCNN的完整步骤(不到60行代码)

前言:TextCNN对于字符串长度不是很长(20个字符以下)的文本分类效果较好,比如要通过新闻标题对新闻种类进行分类,就可以使用TextCNN,主要的步骤如下:1、导入数据 read_csv2、jieba分词(中文)3、建立词库 Tokenizer.fit_on_texts4、把词转换成数字编号 Tokenizer.texts_to_sequences5、规整单个sentence的长度 pad_sequences6、构建textcnn主函数并训练7、predict出最后结果注:我也没有数据

2021-08-13 13:22:02 1199

原创 利用Python做excel文本合并(根据左侧单元格,快速合并右侧单元格内容)

前言:昨天获得一个数据处理的小需求,比较简单,用VBA也能做,不过最近Python用的比较多,所以用Python写了,效率也很快。需求:有一张总表,如下图所示需要根据左侧的工号和姓名,合并右侧获奖情况,结果如下图解决思路:其实比较简单,在leetcode里应该是最简单的初级题目,但是考虑到时间复杂度,如果用两层循环遍历的话,数据量大起来效率会很低,所以我使用了Pandas里面的筛选功能,基本在4秒内就完成了整个数据处理工作(数据量1700条)代码:import pandas as pdi

2021-06-11 09:54:08 1290 2

原创 使用Tf-idf快速进行文本场景分类

好久没写技术文章了,这一年来都在做管理工作,技术都荒废了,最近因为重心调整重新捡起来,希望能快速赶上。本篇文章主要是因为最近在给公司某个单位做投诉文本分类,也就是比较常见的NLP场景,方法有很多,比如Bert,LSTM等,但是我没玩过这些,所以还是先用最简单的Tf-IDF来。注:数据样本因为保密要求,所以不可能分享,大家如果想要学习的话,可以到豆瓣之类的网站爬取评论,效果是类似的。一、加载数据并剔除小样本或无效数据import pandas as pdimport numpy as npimpo

2021-05-31 10:43:56 1554 1

原创 上海满五非唯一,非普通性住房计算

最近有买房需求,但是上海基本都是非普通性住房,税费很高,所以记录一下,同时写了相关的公式方便计算。目前已知税费包括:1、契税:3%2、营业税(增值税):差额的5.65%注:如果不满五,则为全额的5.65%3、个人所得税:差额的20%或总价的2%注:因为不是唯一,所以要缴纳个人所得税4、中介费:暂定1.5%#以下两个数值会变动this_buy = 350 #本次系统购入价true_buy = 540 #本次实际购入价#以下两个数值已知cash = 600 #现金last_buy =

2021-05-05 15:06:09 886 1

原创 如何从苹果手机中导出视频且保证画面不失真

最近买了iPhone 12,因为工作需要需要导出视频,但是手机连上电脑后,如何导出视频且保证清晰度是个问题,尝试了一下,特此记录,供大家参考!1、手机设置设置——相册——“传输到MAC或PC”,选择“保留原片”如何不这样设置的话,超过一定大小(好像是200M)的视频就无法导出2、导出视频如果装好了itunes,连上pc后,应该在下图位置找到iPhone相册入口3、转换格式直接导出后的画面失真严重(颜色偏黄),如下图所示我一开始以为是导出的时候导致画面变色,尝试了itools导出、钉钉导

2020-12-02 20:45:37 27662 2

原创 Python:批量提取文本中的共性部分并转化为正则表达式

前言有一种竞赛需要:有5万条html文本,是由30个模板结合一个地址库结合起来的,每个模板里都有5-7个位置可以选择插入或不插入地址,地址分为6级:province(省)、city(市)、district(区)、township(镇)、street(街)、street_num(街号)。因为模板里分为right(真实的辅助地址)、wrong(错误的干扰地址)和main(street+street_num的主要地址)三种位置,所以需要对地址进行提取。常规的做法是将地址库进行全文检索,并根据某种规则判断出ri

2020-10-18 10:15:25 1278 1

原创 Hadoop:单机伪分布式安装

一、系统安装这里就不详细讲了,之前的《Linux:虚拟机安装Linux、Hadoop的相关操作》已经详细讲过了,这里有2点需要注意一下:1、系统安装用Min最小化即可,相信我,你根本用不着GUI;2、网络如果用主机模式我碰到很多Bug,所以干脆用了nat模式,啥问题都没了。二、Java、Hadoop安装和配置1、查看ip地址ifconfig获得我的虚机Ip地址是:192.168.253.1322、登录xftp和Xshell 7并上传jdk和hadoop的jar包3、关闭防火墙sy

2020-08-19 22:32:50 339

原创 Matplotlib:解决批量制图时的内存不够问题(Out of memory)

前言:前一篇博客完成了经纬度画图的代码设计,现在需要批量生成不同路的图片,共计2000多张。但是在画图时,画到50张就会内存达到100%,且出现“MemoryError: In RendererAgg: Out of memory”的错误。在网上找了一些帖子,终于找到标准答案:1、fig = plt.figure() 放在for循环的外面;2、在每次循环开始阶段,加入plt.cla()(清除当前图形中的当前活动轴);代码:import pandas as pdimport numpy as

2020-08-15 14:05:28 5621

原创 Matplotlib:使用Python根据获得的经纬度坐标画图

前言因为根据地址库的经纬度坐标很难肉眼看出规律,所以想画个图看看。网上看了很多文章,大多都是基于标准地图的,但我只是想画个相对的坐标图就好。所以干脆就用matplotlib自己写一个吧。代码import pandas as pdimport numpy as npimport mathimport matplotlib.pyplot as pltdata = pd.read_csv('复赛标准地址库.csv', sep='\t', dtype={'locationx':'str', 'l

2020-08-09 17:10:11 19351 4

原创 Pandas:关于pandas中筛选的效率测试

前言上一篇说到,最近我在做地址匹配的一个竞赛,目前陷入了瓶颈,所以想从pandas效率上玩玩。比如给出一个切分好的地址列表,如[‘福建省’, ‘厦门市’, ‘思明区’, ‘梧村街道’, ‘湖滨南路’],需要将这个地址在140+万条数据的地址库里筛选出满足条件的所有地址,应该怎么做呢?一、常规方法最常规的方法肯定是直接使用pandas里面的筛选方法,如下面代码所示可以看到用时大概在843毫秒左右这个方法的好处是书写简单,无脑&就可以了,但是如果当中某个对象可能是空的而且需要同时对很多地址

2020-08-09 08:55:05 3507 1

原创 爬虫:东方财富网股票数据爬取

前言因为东方财富网的Js限制,第一页很好爬取,但是第二页开始的网页地址并没有改变,看了下xpath页面元素也和第一页没什么区别,所以只好曲线救国,用selenium找到“下一页”按钮进行跳转再爬取,好处是肯定都能爬到,坏处则是必须一直开着chromedriver,而且爬取效率并不高。代码from selenium import webdriverfrom time import sleepimport mysql.connector as mysql'''爬取上证指数的所有股票信息,保存到本地

2020-07-26 12:05:27 15699 9

原创 BAT:一键切换Windows IP地址

参考文章:https://www.jb51.net/article/48078.htm修改说明:我在原来代码的基础上修正了一些,包括@netsh int ipv4 set address "以太网" static 192.168.1.27 255.255.254.0 192.168.1.254 1 >nul我把ip改成了ipv4,还有address后面的“以太网”是要根据自己电脑实际情况来修改的最后我加了一个pause,这样bat窗口不会立马关掉@echo offrem # --

2020-07-10 09:31:58 3909 3

原创 云主机Centos7下WordPress部署指南

参考文章:https://blog.csdn.net/qq_25504829/article/details/104254788一、天翼云安全组添加端口控制中心——>虚拟私有云——>访问控制——>安全组——>选择default,点击“快速添加规则”,在入方向和出方向分别加入新的端口号2020,如下图所示:二、Apache安装1、安装lrzsz和vim(可选)yum -y install lrzszyum -y install vim2、安装apache服务yum

2020-07-08 20:04:10 953

原创 Python:从文章内提取地址

前言:如何从文章内提取地址?方法有很多种,我这边提一个我的思路。1、整理一份标准地址库,至少包括以下几列:省、市、镇、街道、路。有人会说整理很难,没错,很难找到成熟的地址库(这种都是能卖Q的),通过政府官网可以获得的数据也仅仅是省、市、镇、街道/居委之类的,如果要整理成一份详尽的,难度很高。以上海为例,我主要是通过百度文库获得了一份相对来说比较全的地址库,但也仅仅是路和区的对应表,无法整理到镇或街道。所以我又在上海统计局官网中找到了居委会和区的对应表,经过多次整理获得一份相对比较准确的清单。2、

2020-06-22 16:49:14 3331 1

原创 Python:快速裁剪PDF页面

前言收到一份很大的pdf文档,想根据页数快速裁剪,但是没找到能够免费试用的软件(不是要vip就是要重置),所以就用Python的PyPDF2这个库。主要参考了https://blog.csdn.net/xingxtao/article/details/79056341自己稍微修改了一点代码from PyPDF2 import PdfFileReader, PdfFileWriterdef splitPdf(readFile, outFile, start_page, end_page):

2020-06-17 13:37:27 3046 1

原创 VBA:根据某个单元格的值,判断在另一个单元格内是否有并标红

前言:最近在做一个地址标准化的竞赛,里面包括了地址提取、分词、清洗、匹配等一系列动作,等这次竞赛结束后会专门写一篇文章分享源码。之所以要做标题的事情,是因为用了这么多年的Excel,还是习惯Excel的界面,而且因为这次初赛数据量并不大(500条),分数也达到了了一个瓶颈(98.2分),不清楚应该如何提升,所以就想一条条看看到底错在那里。第一步就是要判断提取出来的地址是否准确。如上图所示,我想要的结果就是根据C列,判断B列里是否有一样的内容,如果有的话就用红色标记,使用VBA很简单,不过也查了蛮多资料

2020-06-09 10:07:03 4410 1

原创 经验分享:数据分析的五个阶段

前言数据分析,也被称为营销分析、经营分析等,就是通过一定的工具、算法,结合业务逻辑将数据背后的真正原因找出来,为企业的发展方向提供数据支撑。在这个越来越对数据重视的时代,数据分析的价值也在迅速提升。在大部分部门,尤其是前端营销部门中,数据分析工作的好坏可能会直接影响一线的业绩。所以如何做好数据分析,是每一个数据分析师需要思考的问题。笔者在10年的数据分析工作生涯中,经历了好几个阶段,也有一些思考和总结,供大家参考。

2020-05-29 10:40:03 2260 1

原创 Python:调用百度地图和高德地图API获得信息检索结果

前言不管是百度地图还是高德地图api,在个人开发者认证完成之前的每日调用配额低得可怜,认证通过后每日可以在信息检索上,每日上限是30万,并发量可以达到50,所以必须认证!代码import requestsimport jsonimport openpyxldef get_bd_address(keyword): '''通过百度地图api获得信息''' url = 'http://api.map.baidu.com/place/v2/search?query=' + keywor

2020-05-25 16:49:44 971

原创 Python:好租网商务楼数据爬取

前言:爬的方法和以前房天下类似,只是在使用next_sibling的时候一直不成功,所以先找了parent然后再找儿子的方式曲线救国解决了。因为我的需求只是名字、区域、地址和楼层四个,所以参数不多,需要的可以自己在我的代码基础上增加。代码:import requestsfrom bs4 import BeautifulSoupdef get_building_url(url): '''获取每一页的大楼的内容(名称和链接)''' r = requests.get(url=url,

2020-05-21 20:51:43 1123

原创 Pandas:把一份清单数据按时间序列转为dict、list的混合样式

前言:标题很难懂,直接上个例子吧。上图为原始数据,想要转为下面的格式:{‘用户1’: [{第1天的发帖量,第2天的发帖量…第31天的发帖量}, {第1天的投票数合计,第2天的投票数合计…第31天的投票数合计}, {第1天的收入合计,第2天的收入合计…第31天的收入合计}]}很复杂吧,我也不明白整理成这样格式的意义是什么=,=下面的代码只把用户和收入的dict做出来了,如果要把投票数和发帖量结合起来,使用pandas里的concat,外面再套一层to_dict就可以了,方法一样,不想多写~~代码

2020-05-20 15:01:12 512

原创 Python:通过百度地图API快速获取路对应的行政区域

前言:最近在做地址标准化的工作,其中一项子任务就是要做地址库,根据内部数据结合前期从网上获取的地址库,计算获得一堆新的路名(未纳入地址库),接下来的工作就是要判断这个新的路名是否跨区域,如果不跨的话属于哪个区?一开始是通过百度地图一个个搜索的,但是架不住量太大(超过100个),而且后期有可能还会不断有新增。所以干脆用百度API的交叉路搜索,获取该路和其它所有路的交叉信息。以“浦东南路”为例,交叉路口就有900条记录,例如“洪山路与浦东南路交叉口”,把这些记录全部获取后筛选其中的“address”字段,也

2020-05-18 13:09:25 2962

原创 Python:自动检测是否双跨并断开wifi

前言双跨,也就是连接有线网的时候还连接着

2020-05-15 13:03:16 576

原创 DNS解析过程详解

一、DNS名词解释  域名,是由一串用点分隔的名字组成的Internet上某一台计算机或计算机组的名称,用于在数据传输时对计算机的定位标识。  DNS,全称Domain Name System,中文名为域名系统,是因特网的一项核心服务,它作为可以将域名和IP地址相互映射的一个分布式数据库,能够使人更方便地访问互联网,而不用去记住能够被机器直接读取的IP数串。  以淘宝为例,www.taoba...

2020-04-21 14:06:57 14267 2

原创 Python:爬取疫情每日数据

前言目前每天各大平台,如腾讯、今日头条都会更新疫情每日数据,他们的数据源都是一样的,主要都是通过各地的卫健委官网通报。以全国、湖北和上海为例,分别为以下三个网站:国家卫健委官网:http://www.nhc.gov.cn/xcs/yqtb/list_gzbd.shtml湖北卫健委官网:http://wjw.hubei.gov.cn/bmdt/ztzl/fkxxgzbdgrfyyq/xxfb...

2020-04-18 09:29:32 50793 13

原创 如何在云上进行网站部署

前言:所有云的使用大同小异,不管是阿里云、腾讯云还是天翼云,本文以天翼云为例,进行网站部署

2020-04-18 09:16:28 1370

原创 中国电信目前的一些云产品

前言:学习中国电信云产品的基本概念。一、计算产品名称缩写英文全称说明弹性云主机ECSElastic Cloud Server是一种可随时获取、弹性可扩展的计算服务。云主机由 CPU、内存、镜像、云硬盘组成,同时结合 VPC、安全组、数据多副本保存等能力,打造一个高效、可靠、安全的计算环境,确保服务持久稳定运行。虚拟私有云VPCVirtual Privat...

2020-04-11 16:49:31 10323

原创 电信网络知识中的一些中英文简称对应表

面对那么多的专业术语,一脸懵逼,特此整理

2020-04-06 21:24:13 3844 1

原创 Pandas:将钉钉的日报清单进行提取和整理

前言:虽然大家一直诟病钉钉,但不可否认钉钉这个软件本身还是很强大的,日报也是与微信相比比较突出的一个功能。通过PC端钉钉,可以把一段时间内的日报批量导出,但是因为是清单格式,所以看起来并不是特别方便,所以我就想把它改成类似于下面的形式:姓名3月1日3月2日3月3日张三未交日报内容1日报内容2李四日报内容3日报内容4未交本来以为会很复杂,但是Pan...

2020-03-24 14:07:58 1738

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除