自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

翻译 《用Python写网络爬虫》第一章源代码Python3版本

原文Python2代码(https://bitbucket.org/wswp/code/src/tip/chapter01/link_crawler3.py?fileviewer=file-view-default)自己改写的Python3版本import reimport urlparseimport urllib2import timefrom datetime import date...

2018-05-17 13:12:59 1192 2

原创 builtwith.parse时报UnicodeDecodeError错

在使用builtwith识别网站所用技术时,如果具体到某个网页,如下图cmdpip install --upgrade builtwithimport builtwithbuiltwith.parse('http://data.eastmoney.com/zjlx/300409.html')就会报如下错误:Traceback (most recent call last): File "&...

2018-05-15 13:21:30 507

原创 如何将excel中的某个sheet保存成csv文件

直接上代码:import xlrd #import csv #import xlwtimport pandas as pd def csv_from_excel(excel_file): workbook = xlrd.open_workbook(excel_file) all_worksheets = workbook.sheet_names() ...

2018-05-14 13:17:06 3952

原创 当文件太大时读取出错怎么办?

在机器学习过程中,如果要处理的文件上G,单纯使用pandas.read_csv(r'D:\format\total_csv_till20180405.csv')容易出错,读不进来,在这种情况下,可以使用以下代码来一块块读进来,并拼接到一起。import pandas as pdreader = pd.read_csv(r'D:\total_csv_till20180405.csv', itera...

2018-05-14 13:07:33 704 1

原创 xml文件中有中文时,使用python报错的解决方案

在使用既有的python的三种方法(SAX,DOM,以及ElementTree)解析XML时,若xml文件里有中文,如果不做特殊处理,通常会报错。以下代码是解决这个问题的一种方法:def getURLfromXML(filePath): import xml.dom.minidom #f = open(r'E:\download\可汗学院\线性代数\2_M82ICR1D9...

2018-05-14 12:55:45 6003

原创 dos/cmd中中文乱码问题的解决方案

通常情况下,如果需要大量的给某个文件夹下的文件批量改名,或者批量创建文件夹时,我们会考虑将rename/mkdir命令写在.bat文件里,然后点击该文件执行。如果修改/创建的名字为英文还好,如果是中文的话,通常会出现乱码现象。这种情况下如何操作呢?通常,在使用win+R,输入cmd进入dos系统时, 我们只要将cmd改成 cmd /u,从而使进入的dos系统支持Unicode,进入系统后,使用之前...

2018-05-14 12:27:54 6682

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除