Dre.-CSDN博客

原创 python ijson处理大json文件（内存溢出解决）

code notes for explanation# before using , please "pip install ijson",# details by seeing official website: https://pypi.org/project/ijson/import ijson flag = 0 with open(train_path) as file: parser = ijson.parse(file) data =

2021-11-01 15:08:11 1900

原创 bootstrap表格表头两种方向

一：表格为列的表格 <table class="table"> <tbody> <tr> <td&...

2019-08-11 20:52:46 1163

原创 python处理doc格式文档

（1）调用python的docx库进行读取word文档：import docxfn = r'E:\abc\test.docx'doc = docx.Document(fn)for paragraph in doc.paragraphs: print(paragraph.text)该方法自己用的时候发现，并不是能读出所有的文字，有些格式不一样的可能读取的时候就被忽略了...

2019-07-31 15:03:38 2588

原创 django项目部署到云服务器上

（1）连接云服务器，进入Ubuntu系统（2）下载和安装anaconda环境，这里选择是anaconda清华镜像，可以自己选择自己项目版本。用wget命令安装anaconda；sh命令执行安装。ubuntu@VM-0-3-ubuntu:~$ wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.0.1-L...

2019-06-23 16:09:15 3975

原创 python打印N*M的回型矩阵

def main(matrix): matrix = np.array(eval(matrix)) print(matrix) index = 0 raw = matrix.shape[1] - 1 col = matrix.shape[0] - 1 if matrix.shape[0] < matrix.shape[1]: ...

2019-06-14 21:04:45 2724

原创 anaconda查看所有的虚拟环境

进入命令行模式conda info -e （查看所有的虚拟环境）activate -name(虚拟环境名字)（进入到该虚拟环境中）

2019-05-23 17:18:03 132555 1

原创爬虫中文乱码解决方法总结

python爬取网站遇到中文乱码第一种方法import requestsurl = 'http://www.***.com'headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.62 Sa...

2019-05-15 21:40:57 1887 1

原创文本分类简单的应用（贝叶斯、SVM、感知器）

import numpy as npimport pandasimport osimport jiebafrom sklearn.feature_extraction.text import CountVectorizerfrom sklearn.model_selection import train_test_splitfrom sklearn.naive_bayes import...

2019-03-18 14:33:21 1314

原创大的JSON文件分成多个小的JSON文件

# coding:utf-8import osimport json#F:\JR_data\new_datawith open(os.path.join('F:\JR_data\old_data', 'jr_XL.json'), 'r', encoding='utf-8') as f1: ll = [json.loads(line.strip()) for line in f1.r...

2019-01-14 16:30:41 8449 5

原创字符串类型列表怎么还原成列表

前提：若此时有一个String类型的列表a = [0,12,24,33,44,55],正准备想取列表中的值时：print(a[0])会发现报错了string类型没有此用法。这时候就想这不是很简单，强制转换一下不就可以了，于是就这样照做了。再打印一下。print(list(a[0])) 这是发现控制台输出的是‘[’，顿时懵了，打印一下list(a),发现结果为[’[0,‘1’,‘2’...

2019-01-14 15:28:28 2618

原创基于python苏宁易购商品信息爬取

由于像一些比较大的电商网站的反爬机制比较厉害，所以本次爬取方法利用selenium库取模仿人工操作来获取数据。

2018-12-22 15:55:06 5571 6

MR_WANG的博客