YmeBtc-CSDN博客

原创 python anaconda 中安装jieba分词模块

每天一点点，记录学习路程python anaconda 中安装jieba分词直接在终端， conda install jieba或者 pip install jieba 时出现PackagesNotFoundError: The following packages are not available from current channels:这个时候，在终端查询 anacond...

2019-10-18 17:37:33 3060 4

原创 python anaconda 安装wordcloud

每天一点点，记录学习过程anaconda 安装wordcloud终端—pip install wordcloudsuccessfully 就可以了没报错，ok了

2019-10-18 14:33:28 1978

原创 python fuzzywuzzy 模糊匹配，计算相似度

每天一点点，记录学习点滴python fuzzywuzzy 模糊匹配，计算相似度from fuzzywuzzy import fuzzfrom fuzzywuzzy import process1:简单匹配a = fuzz.ratio('this is a shot','this is a shat')Out[37]: 932:非完全匹配b = fuzz.partial_rat...

2019-10-12 22:14:26 4459

原创 python 批量爬取网易云音乐，java解密

每天一点点，记录学习python 批量爬取网易云音乐网易云音乐，排行榜，右键，显示网页源代码，并不能找到任何一首歌的id，是因为java加密了随便找一首id为1374061038的歌，在网页源代码中查找，无结果我又不会java。。。。。怎么办呢？？？？？看url中有个#，把#去掉，就解密了；或者右键查看框架源代码找到了哦～～～～～需要字段：歌曲名字和id在源代码中找到...

2019-10-12 00:58:51 457

原创爬取网易榜单云音乐--一首

每天一点点，记录学习爬取网易榜单云音乐–一首那三个小点点，找到下载，然后右键，检查，找到User-Agent这样一首歌就能下载好啦h = {找到的User-Agent那块}response = requests.get(url,headers = h)data = response.content #字节流格式哦with open ('歌名或者随便取名字喽.mp3','wb...

2019-10-12 00:13:06 305

原创 illegal multibyte sequence 解决方法

每天一点点，记录工作中遇到的问题，及实操可行python response 解析网页时 ,gbk无法解码错误：UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0xaf in position 111: illegal multibyte sequencegbk编码，但是有多字符和特殊字符gbk无法解码解决方式1右键–检查（或显示...

2019-10-11 00:26:32 9175 1

原创 python爬取猫眼电影数据

每天一点点，记录学习每一步python爬取猫眼电影top100榜数据目标url = 猫眼电影top100榜网址1:确定抓取的数据字段：排名，海报，电影名字，主演，上映时间，评分；2:分析页面html标签结构，找到数据所在位置；1:）排名所在html标签结构中的位置：index = html.xpath('//dd/i/text()') 2:）海报所在html标签结构中的位置：...

2019-10-10 14:45:17 3589

原创 python anaconda spyder 安装pymysql 模块

每天一点点，记录工作中实操可行python anaconda spyder 安装pymysql 模块在用Spyder3 import pymysql 时报错，需要安装pymysql安装pymysqlconda install pymysql记得敲y安装成功了，再次运行 import pymysql，ok...

2019-10-10 14:28:35 5859

原创 python 爬虫爬取百度贴吧图片 urllib.request.urlretrieve图片批量下载函数

每天一点点，记录学习琐事python 爬虫爬取百度贴吧美图图片，urllib.request.urlretrieve图片批量下载函数百度贴吧美图网址：https://tieba.baidu.com/p/5815297430思路：1:每次最多发3张图片，一张页面有35张图片；2:在页面上的图片，右键，检查，可以看到每张图片存储的方式及位置 img中的src，用xpath方法进行抓取：这3...

2019-10-09 10:02:41 1466

原创 python爬虫爬取百度贴吧图片，requests方法

每天一点点，记录学习python爬虫爬取百度贴吧图片，requests方法知识点：反爬虫1:仍然是找到该图片的http链接，复制到新窗口，找到user-agent找到user-agent，将user-agent后边的内容全部复制#反爬虫headers = {'user-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) A...

2019-10-09 10:00:28 1413

原创 python 爬取菜鸟教程python100题，百度贴吧图片反爬虫下载，批量下载

每天一点点，记录学习python 爬取菜鸟教程python100题1:确定要抓取的数据字段（标题，题目与程序分析）；2:分析页面html标签结构；3:选择实现方法及数据存储位置（存储为文本文件即可）；目标url连菜鸟教程python100题url连接https://www.runoob.com/python/python-100-examples.html但是这个界面只有100道题...

2019-10-07 21:59:20 1658

原创 hive json数组解析explode，json_tuple

每天一点点，记录工作中实操可行hive json数组解析hive中有字段A长这个样子，想把其中的name值全部解析出来[{"itemRateId":"73288842","name":"东北有机大米饭","rating":4,"ratingContent":""},{"itemRateId":"73288850","name":"需要餐具","rating":4,"ratingContent...

2019-09-29 19:42:48 6221 2

原创 hive get_json_object 解析

每天一点点，记录工作中实操可行hive中有个json数据长这样{“orderId”:“2114168344498220156”,“rateId”:“48417819”,“shopId”:“162482101”,“tagList”:[],“tags”:""}想从中解析出orderidselect get_json_object(rate_tag,'$.orderId') order_idf...

2019-09-29 14:05:35 1206

原创 mac Sequel pro 安装使用快捷键

每天一点点，记录工作中实操可行mac 上的mysql 管理工具一、Sequel pro的安装Mac OS X 原生的应用工具Sequel Pro是一款管理 Mysql 的工具，界面简洁易用，你可以一次性连接多个数据库，允许快速访问那些你经常需要访问的数据库。百度网盘下载地址链（永久有效，有提取码）接:https://pan.baidu.com/s/1jQEvuQreKH7RFOtGhM5y...

2019-09-29 12:09:06 817 1

原创 mac 查看页面源码

每天一点点，记录工作中实操可行今天发现在mac上想查看页面的源码，点击右键查看发现并没有类似window上的右键的查看源码的选项不是不能查看，而是在默认情况下没有开启该功能开启步骤：1.点击Safari ,选择“偏好设置”。然后会有一个弹框，选择最后一项“高级”，然后勾选 “在菜单栏中显示‘菜单’选项“。2.然后点击“开发”，点击“显示网页源文件”然后可以查看了...

2019-09-27 16:30:04 2537

原创 mac 打开隐藏文件夹快捷键

每天一点点，记录工作中实操可行mac 显示隐藏文件夹快捷键1、鼠标放在隐藏文件夹目录上2、cmd + shift + .

2019-09-27 15:19:11 1050

原创 python pandas 模块 pivot_table 函数的使用，比Excel透视更强大

每天一点点，记录工作中实操可行pandas melt 模块的使用mac系统找到文件路径及复制到你的代码中python pandas 模块 pivot_table 函数的使用，比Excel透视更强大pivot_table 语法函数参数如下：pivot_table(data, values=None, index=None, columns=None, aggfunc=‘mean’,fill...

2019-09-26 16:11:10 1184

原创 python中 pandas 模块 melt 函数的应用，excel透视表

每天一点点，记录工作中实操可行python中 pandas 模块 melt 函数的应用，完成excel做不到的效果原始表格长成这样python 中读取该表格的前5行，查看表结构import pandas as pdtable = pd.read_excel(excel存放的路径/test.xlsx' ,sheet_name = 'test...

2019-09-26 15:46:06 1456 1

原创 hive 创建临时表，数据分析更方便

每天一点点，记录工作中实操可行代码过程中，不得不建立多个临时表，以便于取数工作公司如果给每个人设置建立临时表的权限，那么，存在数据库中的表，就会各种。。。。。。好乱。。。。所以，在日常工作中，怎么方便的创建临时用几次的临时表呢？？？hive 中写法可以是这样with z1 as (这是你需要把第一个表的各种各种各种内容了放进来),z2 as (这是第二个表里的各种各种各种内容),z...

2019-09-26 12:10:44 5150 7

原创 hive和mysql中将GROUP_CONCAT用法

每天一点点，记录工作中实操可行原表order_id sku_name211565 白辣椒藕丁211565 小炒香干211565 白米饭（单点不送）想写成order_id sku_name211565 白辣椒藕丁,小炒香干,白米饭（单点不送）mysql中写法select order_id,GROUP_CONCAT(sku_name...

2019-09-25 20:53:29 681

原创 oracle和hive中将多个字段合并成一个字段

每天一点点，记录工作中实操可行hive中遇到将两个或多个字段合并作为一个字段，去取其相关数据，hive中的写法是select columna,columnb,concat(a,'-',b,'-',c) column_cfrom table_nameoralce 中是这样写的select columna,columnb,a||b||c column_cfrom table_na...

2019-09-25 20:19:02 5805

原创 hive json解析，电话号码

每天一点点，记录工作中实操可行数据库中存储方式为 [“13974903671”,“18874784819”]可你需要的是将电话号码解析为每个号码一行1397490367118874784819所以，可以直接用，试试select ss.col from (select split(regexp_replace(regexp_extract('["13974903671","1887478...

2019-09-25 15:04:36 397

原创 Mac 系统怎么查找文件路径并复制至代码中，终端查询

每天一点点，记录工作中实际可行操作Mac 系统怎么查找文件路径并复制至代码中在写代码时，很多时候，需要访问本地文件的路径，mac电脑的文件路径要怎么查找，和复制到代码中呢？？先中mac电脑上找一个放在桌面上的文件，右键，显示简介，可以看到该文件的存放地址，可以直接将位置部分抹黑，右键，复制复制出来的效果就是Macintosh HD⁩ ▸ ⁨用户⁩ ▸ ⁨xxxx▸ ⁨桌面⁩如果直接...

2019-09-25 11:35:04 3236

原创关于tableau中行合计，列合计

关于tableau中行合计，列合计每天一点点，记录工作中实际可行操作tableau中使用行总计或者列总计菜单：分析-合计-行总计/列总计显示出来，即可

2019-09-21 13:20:07 11138 3

原创 hive json 解析 get_json_object

hive json 解析每天一点点，记录工作中实操可行rate_tag 字段{“orderId”:“2114168344498220156”,“rateId”:“48417819”,“shopId”:“162482101”,“tagList”:[],“tags”:""}需要把orderId字段给解析出来select rate_tag,get_json_object(rate_tag,'...

2019-09-20 16:11:41 544

原创关于hive中时间戳from_unixtime

每天一点点，记录工作中实际可行操作关于hive中时间戳from_unixtime的使用将时间写成固定的，天数可以任意修改，一天=24小时=86400秒select substr(create_date,1,10) create_date,colum_a,colum_b,colum_cfrom table_nameWHERE substr(create_date,1,10)>...

2019-09-19 10:33:47 1131 1

原创 Hive lateral view explode()的使用

**Hive lateral view explode()的使用 **每天一点点，记录工作中实际可行操作lateral view为侧视图,意义是为了配合UDTF来使用,把某一行数据拆分成多行数据.不加lateral view的UDTF只能提取单个字段拆分,并不能塞会原来数据表中.加上lateral view就可以将拆分的单个字段数据与原始表数据关联上.在使用lateral view的时候...

2019-09-18 20:24:10 574

原创 python 打印倒三角九九乘法表

#每天一点点#python 打印倒三角九九乘法表for i in range(9,0,-1): for j in range(i,0,-1): print(str(i)+'*'+str(j)+'='+str(i*j),end=' ' ) print()输出结果

2019-08-13 10:01:15 11162 1

原创 python set 集合及计算，增删改查

#每天一点点#python set 集合及计算a =set ("shaihdhishao")b =set ("shauiuhsdh")c =set("ihdh")1 ：通过type查看类型print(a,type(a))输出结果

2019-08-09 13:48:34 872

原创 hive 解析经纬度，计算经纬度之间的直线距离

#每天一点点，记录工作中实操可行#hive 解析经纬度解析经纬度字段原始字段: POINT(116.094532 39.579501)select city_name, num_id ,split(regexp_replace(open_position,'POINT\$|\$',''),' ')[0] as start_point_lng ...

2019-08-08 13:39:51 4081

原创 mysql oracle 日期，增改数据

#每天一点点，记录工作中实操可行#mysql中一些操作1：批量更新错行字段update table_name1 a1 left join table_name2 a2 on a1.id= a2.id_originwhere a1.id_new is not nullset a1.id_new = a2.id_now2：mysql新增列并修改新增列的日期格式（日期格式不同）# m...

2019-08-05 13:59:55 320

原创 oracle中正则获取正确的电话号码，去掉数字中的其他字符

#每天一点点，记录工作中实操可行#在工作中，数据库存储数据时，经常会遇到各种奇葩数据，比如，电话号码字段本来是12345678901，但在实际存储中会被加入各种元素，比如123-4567-8901，1234-567-8901等等用正则，将数字中的字符去掉，只留下正常数字，即正确的电话号码如下，复制，直接可以用：select distinct phone,REGEXP_REPLACE ...

2019-08-05 13:45:56 1773 1

原创 Oracle 中将电话号码中间4位数以星号*代替

#每天一点点，记录工作中实操可行#Oracle 中将电话号码中间4位数以星号*代替select replace(phone,substr(phone,4,4),'****') from table_nameexcel 中将电话号码中间4位数以星号*代替REPLACE(电话号码所在单元格,4,4,"****")...

2019-08-05 13:41:15 4704

原创 oracle中某个值每增加1%，则其对应分数就提高1分

#每天一点点，记录工作中实操可行#oracle 中，计算ID使用率，并根据该值计算对应的分数，有以下定义当MTD_ID_Rare >=80% 时，分数记为40分；当MTD_ID_Rare <= 40% 时，分数记为0分；当MTD_ID_Rare在40% 到80%之间时，每增加1%，则分数提高1分即，如果MTD_ID_Rare = 46%，则其分数为6分select date...

2019-08-05 12:53:19 1583

原创 oracle mysql 中以每10个步长作为一个分组

#每天一点点，记录工作中实操作可行##oracle中以每10个步长作为一个分组#当分组范围较大，有固定范围值时，可以用这个方法进行分组当sum_rooms<30 时，归类为30以下；当 sum_rooms >=200时，归类为200以上；当sum_rooms在30到200之间时，将这些数据每10个作为一个分组select Z2.ID,Z1.name,case when...

2019-08-05 12:32:36 1342

原创 python pandas lpt 画图

#每天一点点#python pandas lpt 画图import pandas as pdimport numpy as npimport matplotlib.pyplot as plt1：Series 线性的data = pd.Series(np.random.randn(1000),index=np.arange(1000))data = data.cumsum() #把以...

2019-07-29 21:37:31 315

原创 python merge 数据合并

#每天一点点#python merge 数据合并1：只有一个keyimport pandas as pdleft = pd.DataFrame({'key':['K0','K1','K2','K3'], 'A':['A0','A1','A2','A3'], 'B':['B0','B1','B2','B3...

2019-07-29 21:13:12 1024

原创 python pandas 数据合并 concat

#每天一点点#python pandas 数据合并 concat列名相同，排序相同的3行4列dfimport numpy as npimport pandas as pddf1 = pd.DataFrame(np.ones((3,4))*0,columns=['a','b','c','d'])df2 = pd.DataFrame(np.ones((3,4))*1,columns=['...

2019-07-29 20:06:03 700

原创 python pandas 读取，保存数据

#每天一点点#python pandas 读取，保存数据#pandas 读取数据read_csvread_excelread_hdfread_sqlread_jsonread_magpackread_htmlread_gbqread_stataread_sasread_clipboardread_pickle#保存数据to_csvto_excelto_hdft...

2019-07-29 19:06:57 1387

原创 python pandas 处理丢失数据

#每天一点点#python 处理丢失数据6行4列，以日期为行序，A,B,C,D为列序的dfimport numpy as npimport pandas as pddates = pd.date_range('20130101',periods=6)df = pd.DataFrame(np.arange(24).reshape((6,4)),index=dates,columns=['...

2019-07-29 18:43:02 262

Logistic 逻辑回归测试20200421.xlsx

父子身高-线性回归20200422.xlsx

全国省市县区数据，含拼音

空空如也