- 博客(150)
- 资源 (3)
- 收藏
- 关注
原创 python anaconda 中安装jieba分词模块
每天一点点,记录学习路程python anaconda 中安装jieba分词直接在终端, conda install jieba或者 pip install jieba 时出现PackagesNotFoundError: The following packages are not available from current channels:这个时候,在终端查询 anacond...
2019-10-18 17:37:33
3060
4
原创 python anaconda 安装wordcloud
每天一点点,记录学习过程anaconda 安装wordcloud终端—pip install wordcloudsuccessfully 就可以了没报错,ok了
2019-10-18 14:33:28
1978
原创 python fuzzywuzzy 模糊匹配,计算相似度
每天一点点,记录学习点滴python fuzzywuzzy 模糊匹配,计算相似度from fuzzywuzzy import fuzzfrom fuzzywuzzy import process1:简单匹配a = fuzz.ratio('this is a shot','this is a shat')Out[37]: 932:非完全匹配b = fuzz.partial_rat...
2019-10-12 22:14:26
4459
原创 python 批量爬取网易云音乐,java解密
每天一点点,记录学习python 批量爬取网易云音乐网易云音乐,排行榜,右键,显示网页源代码,并不能找到任何一首歌的id,是因为java加密了随便找一首id为1374061038的歌,在网页源代码中查找,无结果我又不会java。。。。。怎么办呢?????看url中有个#,把#去掉,就解密了;或者右键查看 框架源代码找到了哦 ~~~~~需要字段:歌曲名字和id在源代码中找到...
2019-10-12 00:58:51
457
原创 爬取网易榜单云音乐--一首
每天一点点,记录学习爬取网易榜单云音乐–一首那三个小点点,找到下载,然后右键,检查,找到User-Agent这样一首歌就能下载好啦h = {找到的User-Agent那块}response = requests.get(url,headers = h)data = response.content #字节流格式哦with open ('歌名或者随便取名字喽.mp3','wb...
2019-10-12 00:13:06
305
原创 illegal multibyte sequence 解决方法
每天一点点,记录工作中遇到的问题,及实操可行python response 解析网页时 ,gbk无法解码错误:UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0xaf in position 111: illegal multibyte sequencegbk编码,但是有多字符和特殊字符gbk无法解码解决方式1右键–检查 (或显示...
2019-10-11 00:26:32
9175
1
原创 python爬取猫眼电影数据
每天一点点,记录学习每一步python爬取猫眼电影top100榜数据目标url = 猫眼电影top100榜网址1:确定抓取的数据字段:排名,海报,电影名字,主演,上映时间,评分;2:分析页面html标签结构,找到数据所在位置;1:)排名所在html标签结构中的位置:index = html.xpath('//dd/i/text()') 2:)海报所在html标签结构中的位置:...
2019-10-10 14:45:17
3589
原创 python anaconda spyder 安装pymysql 模块
每天一点点,记录工作中实操可行python anaconda spyder 安装pymysql 模块在用Spyder3 import pymysql 时报错,需要安装pymysql安装pymysqlconda install pymysql记得敲y安装成功了,再次运行 import pymysql,ok...
2019-10-10 14:28:35
5859
原创 python 爬虫爬取百度贴吧图片 urllib.request.urlretrieve图片批量下载函数
每天一点点,记录学习琐事python 爬虫爬取百度贴吧美图图片,urllib.request.urlretrieve图片批量下载函数百度贴吧美图网址:https://tieba.baidu.com/p/5815297430思路:1:每次最多发3张图片,一张页面有35张图片;2:在页面上的图片,右键,检查,可以看到每张图片存储的方式及位置 img中的src,用xpath方法进行抓取:这3...
2019-10-09 10:02:41
1466
原创 python爬虫爬取百度贴吧图片,requests方法
每天一点点,记录学习python爬虫爬取百度贴吧图片,requests方法知识点:反爬虫1:仍然是找到该图片的http链接,复制到新窗口,找到user-agent找到user-agent,将user-agent后边的内容全部复制#反爬虫headers = {'user-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) A...
2019-10-09 10:00:28
1413
原创 python 爬取菜鸟教程python100题,百度贴吧图片反爬虫下载,批量下载
每天一点点,记录学习python 爬取菜鸟教程python100题1:确定要抓取的数据字段(标题,题目与程序分析);2:分析页面html标签结构;3:选择实现方法及数据存储位置(存储为文本文件即可);目标url连 菜鸟教程python100题url连接https://www.runoob.com/python/python-100-examples.html但是这个界面只有100道题...
2019-10-07 21:59:20
1658
原创 hive json数组解析explode,json_tuple
每天一点点,记录工作中实操可行hive json数组解析hive中有字段A长这个样子,想把其中的name值全部解析出来[{"itemRateId":"73288842","name":"东北有机大米饭","rating":4,"ratingContent":""},{"itemRateId":"73288850","name":"需要餐具","rating":4,"ratingContent...
2019-09-29 19:42:48
6221
2
原创 hive get_json_object 解析
每天一点点,记录工作中实操可行hive中有个json数据长这样{“orderId”:“2114168344498220156”,“rateId”:“48417819”,“shopId”:“162482101”,“tagList”:[],“tags”:""}想从中解析出orderidselect get_json_object(rate_tag,'$.orderId') order_idf...
2019-09-29 14:05:35
1206
原创 mac Sequel pro 安装使用 快捷键
每天一点点,记录工作中实操可行mac 上的mysql 管理工具一、Sequel pro的安装Mac OS X 原生的应用工具Sequel Pro是一款管理 Mysql 的工具,界面简洁易用,你可以一次性连接多个数据库,允许快速访问那些你经常需要访问的数据库。百度网盘下载地址链(永久有效,有提取码)接:https://pan.baidu.com/s/1jQEvuQreKH7RFOtGhM5y...
2019-09-29 12:09:06
817
1
原创 mac 查看页面源码
每天一点点,记录工作中实操可行今天发现在mac上想查看页面的源码,点击右键查看 发现并没有类似window上的右键的查看源码的选项不是不能查看,而是在默认情况下没有开启该功能开启步骤:1.点击Safari ,选择“偏好设置”。然后会有一个弹框,选择最后一项“高级”,然后勾选 “在菜单栏中显示‘菜单’选项“。2.然后点击“开发”,点击“显示网页源文件”然后可以查看了...
2019-09-27 16:30:04
2537
原创 mac 打开隐藏文件夹快捷键
每天一点点,记录工作中实操可行mac 显示隐藏文件夹快捷键1、鼠标放在隐藏文件夹目录上2、cmd + shift + .
2019-09-27 15:19:11
1050
原创 python pandas 模块 pivot_table 函数的使用,比Excel透视更强大
每天一点点,记录工作中实操可行pandas melt 模块的使用mac系统找到文件路径及复制到你的代码中python pandas 模块 pivot_table 函数的使用,比Excel透视更强大pivot_table 语法函数参数如下:pivot_table(data, values=None, index=None, columns=None, aggfunc=‘mean’,fill...
2019-09-26 16:11:10
1184
原创 python中 pandas 模块 melt 函数 的应用,excel透视表
每天一点点,记录工作中实操可行python中 pandas 模块 melt 函数 的应用,完成excel做不到的效果原始表格长成这样python 中读取该表格的前5行,查看表结构import pandas as pdtable = pd.read_excel(excel存放的路径/test.xlsx' ,sheet_name = 'test...
2019-09-26 15:46:06
1456
1
原创 hive 创建临时表,数据分析更方便
每天一点点, 记录工作中实操可行代码过程中,不得不建立多个临时表,以便于取数工作公司如果给每个人设置建立临时表的权限,那么,存在数据库中的表,就会各种。。。。。。好乱。。。。所以,在日常工作中,怎么方便的创建临时用几次的临时表呢???hive 中写法可以是这样with z1 as (这是你需要把第一个表的各种各种各种内容了放进来),z2 as (这是第二个表里的各种各种各种内容),z...
2019-09-26 12:10:44
5150
7
原创 hive和mysql中将GROUP_CONCAT用法
每天一点点,记录工作中实操可行原表order_id sku_name211565 白辣椒藕丁211565 小炒香干211565 白米饭(单点不送)想写成order_id sku_name211565 白辣椒藕丁,小炒香干,白米饭(单点不送)mysql中写法select order_id,GROUP_CONCAT(sku_name...
2019-09-25 20:53:29
681
原创 oracle和hive中将多个字段合并成一个字段
每天一点点,记录工作中实操可行hive中遇到将两个或多个字段合并作为一个字段,去取其相关数据,hive中的写法是select columna,columnb,concat(a,'-',b,'-',c) column_cfrom table_nameoralce 中是这样写的select columna,columnb,a||b||c column_cfrom table_na...
2019-09-25 20:19:02
5805
原创 hive json解析,电话号码
每天一点点,记录工作中实操可行数据库中存储方式为 [“13974903671”,“18874784819”]可你需要的是将电话号码解析为每个号码一行1397490367118874784819所以,可以直接用,试试select ss.col from (select split(regexp_replace(regexp_extract('["13974903671","1887478...
2019-09-25 15:04:36
397
原创 Mac 系统怎么查找文件路径并复制至代码中,终端查询
每天一点点,记录工作中实际可行操作Mac 系统怎么查找文件路径并复制至代码中在写代码时,很多时候,需要访问本地文件的路径,mac电脑的文件路径要怎么查找,和复制到代码中呢??先中mac电脑上找一个放在桌面上的文件,右键,显示简介,可以看到该文件的存放地址,可以直接将位置部分抹黑,右键,复制复制出来的效果就是Macintosh HD ▸ 用户 ▸ xxxx▸ 桌面如果直接...
2019-09-25 11:35:04
3236
原创 关于tableau中行合计,列合计
关于tableau中行合计,列合计每天一点点,记录工作中实际可行操作tableau中使用行总计或者列总计 菜单 :分析-合计-行总计/列总计显示出来,即可
2019-09-21 13:20:07
11138
3
原创 hive json 解析 get_json_object
hive json 解析每天一点点,记录工作中实操可行rate_tag 字段{“orderId”:“2114168344498220156”,“rateId”:“48417819”,“shopId”:“162482101”,“tagList”:[],“tags”:""}需要把orderId字段给解析出来select rate_tag,get_json_object(rate_tag,'...
2019-09-20 16:11:41
544
原创 关于hive中时间戳from_unixtime
每天一点点,记录工作中实际可行操作关于hive中时间戳from_unixtime的使用将时间写成固定的,天数可以任意修改,一天=24小时=86400秒select substr(create_date,1,10) create_date,colum_a,colum_b,colum_cfrom table_nameWHERE substr(create_date,1,10)>...
2019-09-19 10:33:47
1131
1
原创 Hive lateral view explode()的使用
**Hive lateral view explode()的使用 **每天一点点,记录工作中实际可行操作lateral view为侧视图,意义是为了配合UDTF来使用,把某一行数据拆分成多行数据.不加lateral view的UDTF只能提取单个字段拆分,并不能塞会原来数据表中.加上lateral view就可以将拆分的单个字段数据与原始表数据关联上.在使用lateral view的时候...
2019-09-18 20:24:10
574
原创 python 打印倒三角九九乘法表
#每天一点点#python 打印倒三角九九乘法表for i in range(9,0,-1): for j in range(i,0,-1): print(str(i)+'*'+str(j)+'='+str(i*j),end=' ' ) print()输出结果
2019-08-13 10:01:15
11162
1
原创 python set 集合及计算,增删改查
#每天一点点#python set 集合及计算a =set ("shaihdhishao")b =set ("shauiuhsdh")c =set("ihdh")1 : 通过type查看类型print(a,type(a))输出结果
2019-08-09 13:48:34
872
原创 hive 解析经纬度,计算经纬度之间的直线距离
#每天一点点,记录工作中实操可行#hive 解析经纬度解析经纬度字段 原始字段: POINT(116.094532 39.579501)select city_name, num_id ,split(regexp_replace(open_position,'POINT\\(|\\)',''),' ')[0] as start_point_lng ...
2019-08-08 13:39:51
4081
原创 mysql oracle 日期,增改数据
#每天一点点,记录工作中实操可行#mysql中一些操作1: 批量更新错行字段update table_name1 a1 left join table_name2 a2 on a1.id= a2.id_originwhere a1.id_new is not nullset a1.id_new = a2.id_now2:mysql新增列并修改新增列的日期格式(日期格式不同)# m...
2019-08-05 13:59:55
320
原创 oracle中正则获取正确的电话号码,去掉数字中的其他字符
#每天一点点,记录工作中实操可行#在工作中,数据库存储数据时,经常会遇到各种奇葩数据,比如,电话号码字段本来是12345678901,但在实际存储中会被加入各种元素,比如123-4567-8901,1234-567-8901等等用正则,将数字中的字符去掉,只留下正常数字,即正确的电话号码如下,复制,直接可以用:select distinct phone,REGEXP_REPLACE ...
2019-08-05 13:45:56
1773
1
原创 Oracle 中将电话号码中间4位数以星号*代替
#每天一点点,记录工作中实操可行#Oracle 中将电话号码中间4位数以星号*代替select replace(phone,substr(phone,4,4),'****') from table_nameexcel 中将电话号码中间4位数以星号*代替REPLACE(电话号码所在单元格,4,4,"****")...
2019-08-05 13:41:15
4704
原创 oracle中某个值每增加1%,则其对应分数就提高1分
#每天一点点,记录工作中实操可行#oracle 中,计算ID使用率,并根据该值计算对应的分数,有以下定义当MTD_ID_Rare >=80% 时,分数记为40分;当MTD_ID_Rare <= 40% 时,分数记为0分;当MTD_ID_Rare在40% 到80%之间时,每增加1%,则分数提高1分即,如果MTD_ID_Rare = 46%,则其分数为6分select date...
2019-08-05 12:53:19
1583
原创 oracle mysql 中以每10个步长作为一个分组
#每天一点点,记录工作中实操作可行##oracle中以每10个步长作为一个分组#当分组范围较大,有固定范围值时,可以用这个方法进行分组当sum_rooms<30 时,归类为30以下;当 sum_rooms >=200时,归类为200以上;当sum_rooms在30到200之间时,将这些数据每10个作为一个分组select Z2.ID,Z1.name,case when...
2019-08-05 12:32:36
1342
原创 python pandas lpt 画图
#每天一点点#python pandas lpt 画图import pandas as pdimport numpy as npimport matplotlib.pyplot as plt1:Series 线性的data = pd.Series(np.random.randn(1000),index=np.arange(1000))data = data.cumsum() #把以...
2019-07-29 21:37:31
315
原创 python merge 数据合并
#每天一点点#python merge 数据合并1:只有一个keyimport pandas as pdleft = pd.DataFrame({'key':['K0','K1','K2','K3'], 'A':['A0','A1','A2','A3'], 'B':['B0','B1','B2','B3...
2019-07-29 21:13:12
1024
原创 python pandas 数据合并 concat
#每天一点点#python pandas 数据合并 concat列名相同,排序相同的3行4列dfimport numpy as npimport pandas as pddf1 = pd.DataFrame(np.ones((3,4))*0,columns=['a','b','c','d'])df2 = pd.DataFrame(np.ones((3,4))*1,columns=['...
2019-07-29 20:06:03
700
原创 python pandas 读取,保存数据
#每天一点点#python pandas 读取,保存数据#pandas 读取数据read_csvread_excelread_hdfread_sqlread_jsonread_magpackread_htmlread_gbqread_stataread_sasread_clipboardread_pickle#保存数据to_csvto_excelto_hdft...
2019-07-29 19:06:57
1387
原创 python pandas 处理丢失数据
#每天一点点#python 处理丢失数据6行4列,以日期为行序,A,B,C,D为列序的dfimport numpy as npimport pandas as pddates = pd.date_range('20130101',periods=6)df = pd.DataFrame(np.arange(24).reshape((6,4)),index=dates,columns=['...
2019-07-29 18:43:02
262
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅