- 博客(11)
- 收藏
- 关注
原创 python ijson处理大json文件(内存溢出解决)
code notes for explanation# before using , please "pip install ijson",# details by seeing official website: https://pypi.org/project/ijson/import ijson flag = 0 with open(train_path) as file: parser = ijson.parse(file) data =
2021-11-01 15:08:11
1900
原创 python处理doc格式文档
(1)调用python的docx库进行读取word文档:import docxfn = r'E:\abc\test.docx'doc = docx.Document(fn)for paragraph in doc.paragraphs: print(paragraph.text)该方法自己用的时候发现,并不是能读出所有的文字,有些格式不一样的可能读取的时候就被忽略了...
2019-07-31 15:03:38
2588
原创 django项目部署到云服务器上
(1)连接云服务器,进入Ubuntu系统(2)下载和安装anaconda环境, 这里选择是anaconda清华镜像,可以自己选择自己项目版本。用wget命令安装anaconda;sh命令执行安装。ubuntu@VM-0-3-ubuntu:~$ wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.0.1-L...
2019-06-23 16:09:15
3975
原创 python打印N*M的回型矩阵
def main(matrix): matrix = np.array(eval(matrix)) print(matrix) index = 0 raw = matrix.shape[1] - 1 col = matrix.shape[0] - 1 if matrix.shape[0] < matrix.shape[1]: ...
2019-06-14 21:04:45
2724
原创 anaconda查看所有的虚拟环境
进入命令行模式conda info -e (查看所有的虚拟环境)activate -name(虚拟环境名字)(进入到该虚拟环境中)
2019-05-23 17:18:03
132555
1
原创 爬虫中文乱码解决方法总结
python爬取网站遇到中文乱码第一种方法import requestsurl = 'http://www.***.com'headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.62 Sa...
2019-05-15 21:40:57
1887
1
原创 文本分类简单的应用(贝叶斯、SVM、感知器)
import numpy as npimport pandasimport osimport jiebafrom sklearn.feature_extraction.text import CountVectorizerfrom sklearn.model_selection import train_test_splitfrom sklearn.naive_bayes import...
2019-03-18 14:33:21
1314
原创 大的JSON文件分成多个小的JSON文件
# coding:utf-8import osimport json#F:\JR_data\new_datawith open(os.path.join('F:\JR_data\old_data', 'jr_XL.json'), 'r', encoding='utf-8') as f1: ll = [json.loads(line.strip()) for line in f1.r...
2019-01-14 16:30:41
8449
5
原创 字符串类型列表怎么还原成列表
前提: 若此时有一个String类型的列表a = [0,12,24,33,44,55],正准备想取列表中的值时:print(a[0])会发现报错了string类型没有此用法。这时候就想这不是很简单,强制转换一下不就可以了,于是就这样照做了。再打印一下。print(list(a[0])) 这是发现控制台输出的是‘[’,顿时懵了,打印一下list(a),发现结果为[’[0,‘1’,‘2’...
2019-01-14 15:28:28
2618
原创 基于python苏宁易购商品信息爬取
由于像一些比较大的电商网站的反爬机制比较厉害,所以本次爬取方法利用selenium库取模仿人工操作来获取数据。
2018-12-22 15:55:06
5571
6
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人