数据采集与数据挖掘
分析微博采集数据技术与数据挖掘技术,通过机器学习方法对文本进行多维度的剖析与分类处理。
作小寒
城市感知计算(sensingcity)
展开
-
基于百万微博数据进行洪涝灾害反演推理
台风杜苏芮是近几年以来对我国影响最大的台风灾害,虽然防守最严密的是登陆地点的沿海居民,实际上产生影响最大的却是京津冀一带,北京市本次降雨量为140年以来最大。我们以'暴雨', '强降雨', '洪水', '内涝', '山洪', '水灾', '灾害性降雨', '降雨量', '暴雨警报', '雨水', '雨情', '防汛', '抗洪', '灾情', '气象预警', '天气灾害', '险情', '险情预警', '险情发布', '险情汇报'等灾害关键字,检索周边的相关灾害社交媒体内容,来感知洪涝事件的时空热度。原创 2024-04-23 17:09:22 · 342 阅读 · 1 评论 -
大量包含换行符的dataframe如何保存
问chatgpt的答案,记录一下。原创 2023-03-01 16:20:41 · 283 阅读 · 0 评论 -
pkl来存储python字典
字典保存记录一下。原创 2023-02-01 23:07:56 · 587 阅读 · 0 评论 -
基于python的文书网网络爬虫代码以及数据
裁判文书python爬虫以及数据获取原创 2022-07-07 11:38:17 · 1635 阅读 · 1 评论 -
City2vec:一种学习人口迁徙网络知识的新方法
今天给大家分享一篇最新录用在SCS(可持续城市与社会)上的文章,这个期刊主要关注城市的能源与建筑,也有很多GIS相关的如街景,健康分析,城市光伏能源的有趣应用,文末有对应的手稿分享。SCS期刊信息这篇文章是2020年的寒假开始收集数据,当初在床上躺着刷手机,无意中看到了腾讯地图数据提供了手机号码字段,这种数据不仅可以为商业营销有帮助(因为有POI所有者的营业类型,可以做商业的精准推送,也应用到了手机接听电话来识别出电话所有者),也在GIS的人口流动中具有应用潜力,连夜赶紧把全国的数据下载下来,大概有8,00原创 2022-07-06 00:50:44 · 1007 阅读 · 0 评论 -
Neo图数据库与python交互
# -*- coding: UTF-8 -*-__author__ = 'zy'__time__ = '2020/12/29 11:18'# coding:utf-8from py2neo import Graph, Node, Relationship##连接neo4j数据库,输入地址、用户名、密码graph = Graph('http://39.97.100.242:7474', username='neo4j', password='neo4j/mysql')##创建结点tes.原创 2021-03-01 14:06:20 · 359 阅读 · 0 评论 -
根据电话号码获取归属地
from phone import Phonedef getlocation(num): if ';' in num: nums=num.split(';') for i in nums: if len(str(i))==11: try: info=Phone().find(i) city = info['city'] .原创 2021-01-21 23:17:50 · 319 阅读 · 0 评论 -
R语言绘制环形图,不停的增加半轴
R语言转载 2020-12-24 16:17:25 · 1161 阅读 · 1 评论 -
X轴间隔显示-长江水位
import matplotlib.pyplot as pltplt.style.use('ggplot')fig =plt.figure(figsize=(15,5)) #图像大小 figsize=(13,5)ax = fig.add_subplot(111)ax.plot(x, y, ls=":", marker='+',markersize=5,label = 'Tweets')ax.plot(x, y1, ls="-.", marker='.',markersize=5,label .原创 2020-12-08 20:45:57 · 374 阅读 · 0 评论 -
绘制分组图+还可以组内对比
```r# 加载包 ---------------------------------------------------------------------library(tidyverse)install.packages('ragg')library(ragg)# 创建一个数据 ------------------------------------------------------------------data <- data.frame( individu.原创 2020-12-07 15:44:59 · 576 阅读 · 0 评论 -
R语言相关性绘图
library('corrplot')fivecolcolnames(fivecol) <- c( 'D0','D1','D2','D3','D4','D5','D6','D7','D8','D9') matrix <- cor (fivecol)#直接画图,不设置其它参数corrplot(corr=matrix)corrplot(matrix, p.mat = res1$p, tl.pos = "d",type ="lower",insig = "label_sig",.原创 2020-12-07 13:26:30 · 961 阅读 · 0 评论 -
R语言绘图,绘制小提琴图加Anova
ggplot(MG_RAST_NocrAss, aes(x=feature, y=log10(rel_res))) + geom_boxplot(aes(fill=feature)) + theme_minimal()+ theme(axis.text.x=element_text(angle=45, hjust=1, size=10), legend.position = "none") + labs(y = "Normalized ARG abundance", x=.原创 2020-11-24 20:32:50 · 1709 阅读 · 0 评论 -
TFIDF与scikitlearin的LDA代码,进行主体聚类,为每个句子打标签
# -*- coding: utf-8 -*-import jiebajieba.suggest_freq('沙瑞金', True)jieba.suggest_freq('易学习', True)jieba.suggest_freq('王大路', True)jieba.suggest_freq('京州', True)jieba.suggest_freq('桓温', True)#cors=[]files=['1.txt','2.txt','3.txt']for i in files:原创 2020-11-20 15:09:50 · 525 阅读 · 0 评论 -
搜狗词库转txt
#!/usr/bin/env python# _*_ coding:utf-8 _*_## @Version : 1.0# @Time : 2018/8/17# @Author : 圈圈烃# @File : scel2txt.py# @Description: 将搜狗的词库.scel文件转化为.txt文件# 本人在之前作者的基础上进行了部分修改# 添加了单个文件转化函数single_file()# 添加了多个文件转化函数batch_file()# https://blo.原创 2020-11-12 20:35:33 · 1560 阅读 · 1 评论 -
搜狗词库爬虫
#!/usr/bin/env python # _*_ coding:utf-8 _*_ # # @Version : 1.0 # @Time : 2018/9/10# @Author : 圈圈烃# @File : Sougou_Spider# @Description: 搜狗词库爬虫##from bs4 import BeautifulSoupfrom urllib.parse import unquoteimport requestsimport re.原创 2020-11-12 20:26:15 · 579 阅读 · 0 评论 -
抓取武汉市空气质量
# -*- coding: UTF-8 -*-__author__ = 'zy'__time__ = '2020/10/10 19:06'import requestsimport json,timeimport sqlite3def trans(cursor): wh="https://restapi.amap.com/v3/airquality/aqilist?key=f0f577c0b97d416f142fed74e8bbd3d7&zoom=11&bound.原创 2020-10-10 19:55:39 · 322 阅读 · 0 评论 -
模型加载分类标准
import numpy as npfrom keras.models import load_modelfrom sklearn.utils import shuffleimport keras.backend as Kfrom keras import Sequentialfrom keras.layers import Denseimport numpy as npdef getPrecision(y_true, y_pred): TP = K.sum(K.round(K..原创 2020-10-09 11:31:55 · 278 阅读 · 0 评论 -
R语言绘图开帖
A <- A[,-2]A[,-3]这也太人性化了,符号就代表相减。O<-cor(delnan)corrplot.mixed(O, lower = "number", upper = "circle", tl.col = "black",lower.col = "black", number.cex = 1) var.test(X,Y,conf.level = 0.95) F test to compare two variancesdata: X and YF = 1.2原创 2020-09-22 15:58:50 · 206 阅读 · 0 评论 -
Keras预测 包括判断方法
import numpy as npfrom keras.models import load_modelfrom sklearn.utils import shuffleimport keras.backend as Kfrom keras import Sequentialfrom keras.layers import Denseimport numpy as npdef getPrecision(y_true, y_pred): TP = K.sum(K.round(K..原创 2020-09-15 12:55:55 · 379 阅读 · 0 评论 -
jq操作css加边框统计字数,实时监听统计框状态
function setSummaryStyle(){ var len=getSummaryLength(); if(len<50) $('#summary').css("border-color","red") else $('#summary').css("border-color","#e5e6e7") //显示字数 $('#textarea-tip').html('已输入'+len+'个字');}触发事件$('#summary').on('input proper原创 2020-09-13 11:18:32 · 217 阅读 · 0 评论 -
ngnix配置文件
# For more information on configuration, see:# * Official English Documentation: http://nginx.org/en/docs/# * Official Russian Documentation: http://nginx.org/ru/docs/user nginx;worker_processes auto;error_log /var/log/nginx/error.log;pid /run/.原创 2020-08-25 16:49:09 · 185 阅读 · 0 评论 -
django 序列化
from django.core import serializers@csrf_exemptdef query_time(request): start = request.POST.get('start')#a.get('username') end = request.POST.get('end')#a.get('password') start=datetime.date(int(start[6:10]),int(start[0:2]),int(start[3:5]).原创 2020-08-20 22:47:11 · 156 阅读 · 1 评论 -
三峡库区水文爬虫
三峡库区、葛洲坝、向家坝、洛溪渡代码及数据完全开源,禁止美国为代表的反华势力使用。import requestsimport pymysql,random,datetimeimport re,time,datetimedef create_table(database): db = pymysql.connect(host='localhost', port=3306, user='root', password='mysql', db='water',原创 2020-08-23 23:20:21 · 453 阅读 · 2 评论 -
调用神经网络模型生成混淆矩阵,精度评判
import numpy as npfrom keras.models import load_modelfrom sklearn.utils import shuffleimport keras.backend as Kfrom keras import Sequentialfrom keras.layers import Denseimport numpy as npdef getPrecision(y_true, y_pred): TP = K.sum(K.round(K.c原创 2020-08-11 23:48:50 · 2173 阅读 · 0 评论 -
绘制混淆矩阵,计算kappa系数
import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as plt#绘制混淆矩阵conmatrix=np.array([[152,1,2,0,0,2,0,0,0], [1,28,0,0,0,0,0,0,0], [5,0,56,0,0,3,0,0,0], [2,0,0,14,0,1,0,0,0], [2,0,0,0,24,0,0,0,0], [9,1,3,0,0,85,1,0,.原创 2020-08-11 16:35:40 · 1118 阅读 · 0 评论 -
传统机器学习模型对比
from sklearn.neighbors import KNeighborsClassifierfrom sklearn.datasets import load_digitsfrom sklearn.model_selection import train_test_splitfrom sklearn import preprocessingfrom sklearn.metrics import accuracy_scorefrom sklearn.svm import SVCfrom s原创 2020-08-11 16:27:32 · 596 阅读 · 2 评论 -
数据来源托管地址(持续更新)
19硕王雪琴 21:27:58宫老师的地表覆盖分类数据(1)10米FROM-GLC10 (2017v0.1.3 with minor improvements)http://data.ess.tsinghua.edu.cn/fromglc10_2017v01.html分类体系说明http://data.ess.tsinghua.edu.cn/data/fromglc10_2017v01/ClassificationSystem_FROM-GLC10–2017v01.docx(2)30米FR原创 2020-07-28 21:29:02 · 647 阅读 · 1 评论 -
execjs使用体验
把前端代码抠出来,进行本地运行解析参数,这也就是知云翻译所用的方法吧~转载链接地址import requestsimport reimport execjsclass BaiduTranslateSpider(object): def __init__(self): self.token_url = 'https://fanyi.baidu.com/?aldtype=16047' self.post_url = 'https://fanyi.baidu.转载 2020-07-24 18:57:35 · 725 阅读 · 1 评论 -
长江水文代码
eval函数,将字符串格式的列表转为列表,并且支持字典操作import requestsfrom lxml import etreeimport pymysql,random,datetimedef create_table(database): db = pymysql.connect(host='localhost', port=3306, user='root', password='mysql', db='water', cha原创 2020-07-24 17:41:40 · 501 阅读 · 1 评论 -
word2vec
# -*- coding: utf-8 -*-from gensim.models import Word2Vecfrom sklearn.decomposition import PCAfrom matplotlib import pyplot# 训练的语料sentences = [['this', 'is', 'the', 'first', 'sentence', 'for', 'word2vec'], ['this', 'is', 'the', 'second', 'sentence'转载 2020-07-13 15:58:31 · 250 阅读 · 1 评论 -
python定时器检查工作日
import requestsimport jsonurl='http://api.haoshenqi.top/holiday?{0}'#2020-07-11# status: 0普通工作日1周末双休日2需要补班的工作日3法定节假日date='2020-06-20's=requests.get(url.format(date)).textcode=json.loads(s)[0]['status']if code==0 or code==2: print('上班执行')if code原创 2020-07-10 11:35:30 · 451 阅读 · 1 评论 -
scikit准确率召回率F1模块
from keras.models import load_modelimport numpy as npfrom sklearn.metrics import confusion_matrix, f1_score, precision_score, recall_score,accuracy_score # 测试# model=load_model('./models/lenet5_weight.h5') y_predict = model.predict(test_images, ba转载 2020-07-07 18:23:43 · 475 阅读 · 1 评论 -
腾讯位置大数据
import requests,jsonimport time,sysimport pandas as pdclass X: def __init__(self): self.headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari/53.转载 2020-06-27 13:00:53 · 7598 阅读 · 2 评论 -
来学习R语言绘图啦~
# 两个包自己用Rstudio直接安装就好install.packages("tidyverse")library(tidyverse)mpg#> Loading tidyverse:ggplot(data = mpg) + geom_point(mapping = aes(x = displ, y = hwy,color = "blue"))ggplot(data = mpg) + geom_point(mapping = aes(x = displ, y = hwy, sha原创 2020-06-17 16:12:50 · 313 阅读 · 0 评论 -
绘制类似知网查重的条带热图
import matplotlib.pyplot as pltimport numpy as npimport matplotlibmatplotlib.rcParams['font.size'] = 8.0# Fixing random state for reproducibilitynp.random.seed(19680801)# create random datadata1 = np.random.random([6, 50])# set different colors原创 2020-05-21 18:52:09 · 320 阅读 · 2 评论 -
介绍几个python networks绘制的例子
这部分国内CSDN质量太差了,官网抄都抄不好,这里做个搬运工。import networkx as nximport numpy as npimport matplotlib.pyplot as pltG = nx.Graph()G.add_edges_from( [('A', 'B'), ('A', 'C'), ('D', 'B'), ('E', 'C'), ('E', 'F'), ('B', 'H'), ('B', 'G'), ('B', 'F'), ('C', 'G')]原创 2020-05-21 13:35:01 · 3309 阅读 · 3 评论 -
python固定后缀(名物化词汇)词频统计:抽取+统计+可视化
with open('en_gum-ud-dev.txt','r',encoding='utf-8') as f: result=f.read()print(result)import reion = re.findall(r"\b \S*?ion\b",result)ment = re.findall(r"\b \S*?ment\b",result)ness = re.findall(r"\b \S*?ness\b",result)ity = re.findall(r"\b \S*?原创 2020-05-19 14:26:22 · 372 阅读 · 0 评论 -
geopandas与folium实战
#把地铁站点打出来df=df[0:100]for lat,lon,label,line in zip(df['latitude'],df['longitude'],df['bizcircle_name'],df['均价']): if line>15000: color='#ffc71e' else: color='#2ce7cf' folium.Circle(location=[lat,lon],tooltip='500m circle',r原创 2020-05-11 12:32:10 · 1019 阅读 · 0 评论 -
Pandas库函数
Pandas库专为数据分析而设计,它是使Python成为强大而高效的数据分析环境的重要因素。一、Pandas数据结构1、import pandas as pdimport numpy as npimport matplotlib.pyplot as plt2、S1=pd.Series([‘a’,’b’,’c’]) series是一组数据与一组索引(行索引)组成的数据结构3、S1=pd....转载 2020-05-03 22:14:14 · 1034 阅读 · 0 评论 -
python 绘制svg矢量图层
# -*- coding: UTF-8 -*-__author__ = 'zy'__time__ = '2020/4/20 13:38'import jsonimport timeimport pandas as pdimport matplotlibmatplotlib.rcParams['backend'] = 'SVG'import matplotlib.pyplot as ...原创 2020-05-01 19:33:25 · 2476 阅读 · 0 评论