自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(103)
  • 收藏
  • 关注

原创 json文件的读写操作及乱码(包含农业数据爬取)

写文件import jsonimport codecs#解码汉字import csvdata=[{ "问题": "怎样进行小麦病害叶锈病的农业防治?", "方案1:": "农业防治种植抗病品种。增施磷、钾肥,做到氮磷钾合理搭配,增强小麦长势。施用氮肥不要过多、过迟,避免贪青晚熟。麦田要合理灌水,防止大水漫灌,降低田间湿度。南北行种植,提高通风透光能力。"},{ "问题": "小麦病害叶锈病有何防治方法?", "方案1:": "(1)药剂拌种。小麦播前选用种子量0.

2021-08-19 21:17:23 259

原创 加权随机森林2

加权随机森林

2023-04-04 02:45:33 702 1

原创 加权随即深林代码

加权随机森林

2023-04-04 02:39:43 297

原创 内存系统笔记

笔记

2022-10-17 12:52:51 201

原创 OS第一章

OS

2022-09-29 23:13:09 166

原创 python转exe

2022-08-31 20:23:14 167

原创 快速理解拉格朗日乘子法

简单手推拉格朗日乘子法

2022-07-29 22:29:20 111

原创 词云图,词频图,专门统计某些关键词的词云词频

词云、词频

2022-07-16 18:02:07 1635

原创 小说抓取实战

爬小说

2022-07-16 17:59:17 127

原创 scrapy 快速下载

快速下载scrapy

2022-07-10 14:13:03 331

原创 b站视频链接快速获取

快速获取b站视频数据

2022-07-03 17:52:35 5423

原创 ImportError: cannot import name ‘process_pdf‘ from ‘pdfminer.pdfinterp‘错误完全解决

import pdfminer 出问题

2022-06-17 01:44:07 2075

原创 python快速写入sql

CREATE TABLE `ele` (`price` int(11) DEFAULT NULL COMMENT '价格',`qiyou` VARCHAR(100) DEFAULT NULL COMMENT '汽油', `caiyou` VARCHAR(100) DEFAULT NULL COMMENT '柴油', `pele` VARCHAR(100) DEFAULT NULL COMMENT '全国发电量', `uele` VARCHAR(100) DEFAULT NULL COMMENT '

2022-02-08 22:03:25 2266

原创 pytorch安装

https://www.bilibili.com/video/BV12q4y1979F?p=31、https://developer.nvidia.com/cuda-downloads?target_os=Windows&target_arch=x86_64&target_version=10&target_type=exe_local运行cuda,安装https://pytorch.org/get-started/locally/管理员权限运行...

2022-01-19 10:58:09 879

原创 安居客 爬虫实战

安居客封ip,解决方案1、点击找到需要的房源,f122、点击手机模式,刷新,获取url,搞定from lxml import etreefrom fake_useragent import UserAgentimport timeimport jsonimport requestsimport csvimport randomheaders={ 'User-Agent':UserAgent().random }# w=["小区名称","

2022-01-18 22:38:48 855

原创 异常值检测方法(考试版7)

基于聚类的异常值检测方法继上次餐馆老板同学们帮忙对客户数据进行分组后,老板发现部分顾客被划归为某些簇中,而这些顾客是异常的。为此需要对此数据进行异常值检测并删除,然后再对清洗后的数据进行分组。(1)利用基于对象离群因子法识别离群点(2)利用基于簇的离群因子法识别离群点基于近邻的噪声点检测方法ENN 方法基本思想:针对分类任务的数据集中的某个元素,若其类标签与其 k(一般 k=3)个近邻中多数元素的标签不一致,则认为其是异常对象。顺序(1)读取“banana.dat”数据文件,并在二维平面

2022-01-07 14:33:00 1239

原创 聚类相关 考试版(5)

1.案例简介某个餐饮公司因前期经验不善的影响而生意惨淡,现有位“接盘侠”接受了此餐厅。他为了扭转此现状,通过“充值 200 送 20 元”、“充 值 500 元送 50 元”等优惠方式办理了几百张就餐充值卡,若干个月后收集了 500 名顾客的“最近一次消费时间间隔”(R)、“消费频率”(F)、“消费总额”(M)三类消费行为数据。此 “接盘侠”试图利用此数据将客户进行分类成不同客户群,并评价这些客户群的价值,进行实行做到针对性服务。然而此“接盘侠”不懂得对这些数据进行分析,你可以帮助他吗?2.

2022-01-07 14:31:20 929

原创 spider背景全黑,不是编辑区

方法1、2、3、输入conda install spyder=4.2.3等大约十分钟就好了,但是没有完全好,并且此好像方法不知此python3.7一下版本但是会出这个错误:然后pip install --user paramiko就好了啦,又没完全好以后瞎子东西都要加上 --user 。。。哎难受加粗样式...

2022-01-04 19:31:16 455

原创 pycharm专业版和mysql下载

下载http://www.jetbrains.com/pycharm/download/professional 表示专业版,community 是社区版店Evaluate for free,会显示重启然后,把拉进去就OK

2022-01-04 18:09:10 1038

原创 Mysql数据库端口占用

Mysql数据库端口占用换用端口号后,密码登录登不上去,找不到my.ini文件。解决方案:用root登陆上去后,执行以下代码就可以了mysql -uroot -proot;USE mysql; ALTER USER 'root'@'localhost' IDENTIFIED WITH mysql_native_password BY '123456'; FLUSH PRIVILEGES;...

2022-01-04 17:57:44 290

原创 朴素贝叶斯(考试版6)

***1.案例简介利用朴素贝叶斯分类方法对文本数据进行情感分析,进而设计一个留言板过滤系统.(以下代码实现不要使用SKLEARN模块)2.数据采集以下表格中是一个文本分类的问题,区分一句话是粗鲁的还是文明的,类别标签只有Yes或No,表示是粗鲁的和不是粗鲁的语句。3.数据预处理给定一个词典【”my”,“name”,“is”,“Devin”,“you”,“are”,“stupid”,“boyfriend”,“SB”,“looks”,“very”,“smart”,”like”,”much”】需要将每一

2022-01-02 16:33:14 778

原创 决策树(考试版4)

作图需要专门下载graphviz软件案例简介:本节我们将通过一个例子讲解决策树如何预测患者需要佩戴的隐形眼镜类型。使用小数据集,我们就可以利用决策树学到很多知识:眼科医生是如何判断患者需要佩戴的镜片类型;一旦理解了决策树的工作原理,我们甚至也可以帮助人们判断需要佩戴的镜片类型。1.数据准备隐形眼镜数据集是非常著名的数据集,它包含很多患者眼部状况的观察条件以及医生推荐的隐形眼镜类型。隐形眼镜类型包括硬材质、软材质以及不适合佩戴隐形眼镜(lenses.txt)。2.数据处理解析tab键分隔的数据行

2022-01-02 00:57:56 1042

原创 K-近邻(考试版3)

K-近邻分类算法案例我的朋友海伦一直使用在线约会网站寻找适合自己的约会对象。尽管约会网站会推荐不同的人选,但她没有从中找到喜欢的人。经过一番总结,她发现曾交往过三种类型的人:“不喜欢的人”、“魅力一般的人”以及“极具魅力的人”。尽管发现了上述规律,但海伦依然无法将约会网站推荐的匹配对象归人恰当的分类。她觉得可以在周一到周五约会那些魅力一般的人,而周末则更喜欢与那些极具魅力的人为伴。海伦希望我们的分类软件可以更好地帮助她将匹配对象划分到确切的分类中。此外海伦还收集了一些约会网站未曾记录的数据信息,她认为这些

2022-01-02 00:30:27 1045

原创 挖掘频繁模式(考试版2)

关联规则简介关联规则反映一个事物与其他事物之间的相互依存性和关联性。若两个或多个事物之间存在一定的关联关系,则其中一个事物就能够通过其他事物预测到。典型的关联规则发现问题是对超市中的货篮数据(Marker Basket)进行分析,通过发现顾客放入货篮中的不同商品之间的关系来分析顾客的购买习惯。基本概念事务:由事务号和项集组成。事务是一次购买行为项:最小处理单位,即购买的物品项集:由一个或多个项组成支持度计数:包含某个项集的事务数支持度:包含某个项集的事务数的比例支持度:包含某个项集的事务

2021-12-31 17:30:26 384

原创 数据预处理(考试版1)

数据预处理的主要任务数据清理填充缺失值,识别/去除离群点,光滑噪音,并纠正数据中的不一致数据集成多个数据库,数据立方体或文件的集成数据归约得到数据的归约表示,它小得多,但产生相同或类似的分析结果:维度规约、数值规约、数据压缩Pandas缺失值处理删除pandas中None与np.nan都视作np.nan,在pandas中,None和np.nan统一处理成NaN,类型为float型,可用于计算且运算结果扔为NaN。pandas处理空值操作isnull()如果为NaN就返回True,否则

2021-12-31 15:30:02 469

原创 计算机网络简答

2.如果计算机A和计算机B在同一个IP子网内,试简述计算机A(IP地址为192.168.25.1,MAC地址为E1)向湘计算机B(IP地址为192.168.25.2,MAC地址为E2)发送数据时ARP协议的工作过程。答:(1)当主机A要向主机B发送数据时,必须知道主机B的MAC地址,为此,先根据主机B的IP地址在本机的ARP缓冲表内查找,如找到E2,则把E2填到MAC帧中,并把数据发送给主机B;(12分)(2)如果在本机的ARP缓冲表内找不到主机2的MAC地址,则主机A产生一个ARP询问包,其中包含主机A

2021-12-30 12:40:13 2187

原创 计算机网络1.1

一、阅读教材 1.1 计算机网路在信息时代中的作用,以及 1.2 互联网络概述两节。 二、完成以下题目,写在作业本上:Internet 最早起源于________ A.ARPAnet B.MIlnet C.NSFnet D.Annet计算机网络的最基本功能是实现资源共享。这里的“资源”是指____D____。 A.文档 B.文档、软件和数据 C.软件和硬件 D.数据、软件和硬件在如下网络拓朴结构中,具有一定集中控制功能的网络是___B_____。 A.总线型网络 B.星型网络 C.环形网络 D.全连

2021-12-29 14:51:22 1848

原创 淘宝实战进阶

from selenium import webdriverimport reimport requestsimport timeimport csvimport randomfrom lxml import etreefrom mouse import move,clickfrom bs4 import BeautifulSoupimport refrom pyquery import PyQuery as pqimport timepath = '.\chromedriver.e

2021-12-13 23:22:46 439

原创 微博爬虫实战

from lxml import etreefrom pyquery import PyQuery as pqimport timeimport jsonimport requestsfrom fake_useragent import UserAgentheaders={ 'User-Agent':UserAgent().random }key=input("输入关键词:")for i in range(1,2): url='https://

2021-12-03 20:53:13 85

原创 豆瓣电影爬虫实战

基本数据from lxml import etreeimport timeimport jsonimport requestsimport csvimport randomimport osfrom fake_useragent import UserAgentheaders={ 'User-Agent':UserAgent().random }with open('豆瓣链接数据.csv', 'a', newline='', encoding='u

2021-12-02 23:06:47 463

原创 时间戳划分数据集

import jsonimport csvimport datetimeimport time#输入数据的类型 2021-11-09 16:36、2021-11-09、2021/11/09def judge(timestr): if ":" not in timestr and "/" in timestr: timestr=timestr.replace("/","-") if ":" not in timestr and "-" in timestr:

2021-11-14 16:23:54 11220

原创 数据探索(数据填充)

import miceforest as mfimport pandas as pd import numpy as npimport seaborn as snsimport matplotlib.pyplot as pltfrom sklearn.neighbors import KNeighborsClassifier,KNeighborsRegressorfrom sklearn.ensemble import RandomForestRegressor, RandomForestCla

2021-11-13 23:20:57 1267

原创 re匹配模块

# import re# str="wdhuabwda1234dhqu23adaw"# m2=re.search("[0-9]{4}",str)# m2.group()# m2.start()# m2.end()# m2.span()# re.findall("[0-9]{2,6}",str)#2~9位数字 [0-9]+ 至少一位数字# str="12,34s45@44"# re.split("[^0-9]",str)# re.sub("[^0-9]",":",str)

2021-11-13 14:18:47 531

原创 matplotlib(折线图)

import matplotlib.pyplot as pltimport numpy as npimport pandas as pdfrom matplotlib import font_manager#汉字问题# y=[np.random.randint(0,10) for x in range(20)]# x=range(5,25)# plt.plot(x,y) # data={# "a":range(5,25),# "b":[np.random.ran

2021-11-12 19:19:55 825

原创 爬虫实战(天气)

from lxml import etreefrom fake_useragent import UserAgentimport timeimport requestsimport csvimport randomheaders={ 'User-Agent':UserAgent().random }names=["年","月","日","最低温(℃)","最高温(℃)","天气","风向","级数"]with open('清远.csv', 'a', n

2021-11-12 18:16:09 367

原创 爬虫实战(证券交易)

#链接url="http://www.cninfo.com.cn/new/fulltextSearch?notautosubmit=&keyWord=%E5%B9%B3%E5%AE%89%E9%93%B6%E8%A1%8C%E4%BE%9B%E5%BA%94%E9%93%BE%E9%87%91%E8%9E%8D%E5%B9%B3%E5%8F%B0"如图:但是获取不到数据?方法:刷新获取链接文本如图:结果如图:然后json处理或者正则匹配import csvimport ra

2021-11-12 17:32:41 581

原创 数据探索(箱型图、KDE分布图、热力图、根据相关系数筛选特征变量)

import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsfrom scipy import statsimport warningswarnings.filterwarnings("ignore")#内嵌画图,省略掉plt.show()这一步,直接显示图像。plt.rc("font",family="SimHei",size="15") #解决中文乱码问题# %ma

2021-11-12 17:15:15 604

原创 高考数据吧

from lxml import etreefrom lxml import etreeimport reimport timeimport jsonimport requestsimport csvimport codecsfrom pyquery import PyQuery as pqfrom mouse import move,clickfrom bs4 import BeautifulSoupimport requestsfrom selenium import webdr

2021-11-08 17:13:12 45

原创 高考数据获取

from lxml import etreefrom lxml import etreeimport reimport timeimport jsonimport requestsimport csvimport codecsfrom pyquery import PyQuery as pqfrom mouse import move,clickfrom bs4 import BeautifulSoupimport requestsfrom selenium import webdr

2021-11-08 17:11:43 93

原创 文本分析 词云 特征值 LDT主题模型

import pandas as pdimport numpy as npimport numpyimport osfrom sklearn.feature_extraction.text import TfidfVectorizerimport jiebadata=pd.read_csv("煤炭文本1.csv",encoding="gbk")data=data.dropna()text=data.正文.values.tolist()content=[]for line in text:

2021-11-02 22:46:41 161

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除