numpy、pandas、Counter、结巴

1 处理数据

a = ['1 23', '12 28', '25 35', '27 80', '36 50']
for i in range(len(a)):
    temp = a[i].split(' ')
    temp = list(map(int, temp))
    turple = (temp[0], temp[1])
    a[i] = turple
print(a)

————
结果:

[(1, 23), (12, 28), (25, 35), (27, 80), (36, 50)

2 使用numpy的svd方法

import numpy as np
A = [[1, 1],
    [1, 1],
    [0, 0]]
A_r = np.transpose(A)
print(np.dot(A_r, A))
x = [[2, 2, 0],
    [2, 2, 0],
    [0, 0, 0]]

a,b=np.linalg.eig(np.dot(A_r, A))
print(a)
print(b)
print(np.linalg.svd(A))

————
结果:

[[2 2]
 [2 2]]
[4.0000000e+00 4.4408921e-16]
[[ 0.70710678 -0.70710678]
 [ 0.70710678  0.70710678]]
(array([[-0.70710678, -0.70710678,  0.        ],
       [-0.70710678,  0.70710678,  0.        ],
       [ 0.        ,  0.        ,  1.        ]]), array([2., 0.]), array([[-0.70710678, -0.70710678],
       [-0.70710678,  0.70710678]]))

3 使用Counter模块进行统计

from collections import Counter
a = [1, 1, 2, 1, 3]
cnt = Counter(a)
cnt_data=sorted(cnt.items(),key=lambda x:x[1],reverse=True)
print(cnt)
print(cnt_data)
Counter({1: 3, 2: 1, 3: 1})
[(1, 3), (2, 1), (3, 1)]

4 结巴分词的使用
示意1:

import jieba
import os
import re

path_file = "C:/Users/哈哈/Desktop/Datasets/000\tabc \n"
path1 = "C:/Users/哈哈\n"
l = [path_file, path1]
rule = re.compile(u"[^a-zA-Z0-9\u4E00-\u9FA5]")
l1 = [rule.sub('', i) for i in l]
# line = rule.sub('',path_file)
# print(path_file)
# print(line)
print(l1)

————
结果:

['CUsers哈哈DesktopDatasets000abc', 'CUsers哈哈']

示例2:

a = ['整理', '何', '丽丽', '据', '新加坡', '9', '月', '23', '日', '消息', '亚洲', '燃料油', '跨', '月', '合约', '周四', '仍', '遭大单', '抛售', '约', '有', '275', '万吨', '10', '11', '月', '和', '11', '12', '月', '跨', '月', '合约', '以', '疲弱', '的', '价格', '成交', '10', '月', '粘度', '差收', '窄', '至', '一周', '前', '成为', '即期', '合约', '以来', '最低', '水准', '交投', '量', '很大', '交易商', '称', '跨', '月', '价差', '处于', '关键点', '可能', '进一步', '走软', '或者', '快速', '反弹', '1130GMT', '10', '11', '月', '和', '11', '12', '月', '跨', '月', '合约', '至少', '分别', '有', '115', '万吨', '和', '16', '万吨', '分别', '以', '每吨', '正', '价差', '400', '420', '美元', '和', '350', '375', '美元', '成交', '0830GMT', '收盘', '时', '10', '11', '月', '互换', '正', '价差', '持稳', '於', '每吨', '400', '美元', '11', '12', '月', '互换', '正', '价差', '下跌', '013', '美元', '至', '每吨', '正', '价差', '363', '美元', '10', '月', '燃料油', '裂解', '价差', '收窄', '026', '美元', '至', '每桶', '较', '迪拜', '原油', '贴水', '615', '美元', '11', '月', '裂解', '价差', '收窄', '023', '美元', '至', '每桶', '贴水', '600', '美元', '180CST', '燃料油', '价格', '下跌', '200', '美元', '至', '每吨', '44475', '美元', '380CST', '燃料油', '价格', '跌', '150', '美元', '至', '每吨', '43988', '美元', '油品', '价格', '上', '日', '价格', '变动', '现货', '180CST', '燃料油', '44450', '44500', '44675', '200', '现货', '380CST', '燃料油', '43950', '43975', '44113', '150', '10', '月', '燃料油', '互换', '', '', '', '', '', '', '', '', '44625', '', '', '', '', '', '', '44913', '', '', '', '', '', '288', '', '', '', '11', '月', '燃料油', '互换', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '45038', '', '', '', '', '', '', '45313', '', '', '', '', '', '275', '', '', '', '新加坡', '船用', '燃料油', '', '', '', '', '', '', '', '43900', '', '44100', '', '', '', '', '', '', '44200', '', '', '', '', '', '200', '', '', '', '380CST', '船用', '燃料油', '升水', '', '', '', '', '', '', '', '018', '', '058', '', '', '', '', '', '', '', '', '087', '', '', '', '', '', '050', '', '欢迎', '发表', '评论', '', '', '我要', '评论', '', '']
# for i in a:
#     if(i == ''):
#        a.remove(i)
a = [i for i in a if i != '']
a = [i for i in a if i.isalpha()]
print(a)

————
结果:

['整理', '何', '丽丽', '据', '新加坡', '月', '日', '消息', '亚洲', '燃料油', '跨', '月', '合约', '周四', '仍', '遭大单', '抛售', '约', '有', '万吨', '月', '和', '月', '跨', '月', '合约', '以', '疲弱', '的', '价格', '成交', '月', '粘度', '差收', '窄', '至', '一周', '前', '成为', '即期', '合约', '以来', '最低', '水准', '交投', '量', '很大', '交易商', '称', '跨', '月', '价差', '处于', '关键点', '可能', '进一步', '走软', '或者', '快速', '反弹', '月', '和', '月', '跨', '月', '合约', '至少', '分别', '有', '万吨', '和', '万吨', '分别', '以', '每吨', '正', '价差', '美元', '和', '美元', '成交', '收盘', '时', '月', '互换', '正', '价差', '持稳', '於', '每吨', '美元', '月', '互换', '正', '价差', '下跌', '美元', '至', '每吨', '正', '价差', '美元', '月', '燃料油', '裂解', '价差', '收窄', '美元', '至', '每桶', '较', '迪拜', '原油', '贴水', '美元', '月', '裂解', '价差', '收窄', '美元', '至', '每桶', '贴水', '美元', '燃料油', '价格', '下跌', '美元', '至', '每吨', '美元', '燃料油', '价格', '跌', '美元', '至', '每吨', '美元', '油品', '价格', '上', '日', '价格', '变动', '现货', '燃料油', '现货', '燃料油', '月', '燃料油', '互换', '月', '燃料油', '互换', '新加坡', '船用', '燃料油', '船用', '燃料油', '升水', '欢迎', '发表', '评论', '我要', '评论']

5 pandas使用

import pandas as pd
user_num = 3
item_num = 4
rating_matrix = pd.DataFrame({"user_id": [0, 1, 1, 1, 2], "item_id": [1, 3, 0, 2, 1]})
print(rating_matrix)

————
结果:

   user_id  item_id
0        0        1
1        1        3
2        1        0
3        1        2
4        2        1
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值