- 博客(6)
- 收藏
- 关注
翻译 《用Python写网络爬虫》第一章源代码Python3版本
原文Python2代码(https://bitbucket.org/wswp/code/src/tip/chapter01/link_crawler3.py?fileviewer=file-view-default)自己改写的Python3版本import reimport urlparseimport urllib2import timefrom datetime import date...
2018-05-17 13:12:59 1192 2
原创 builtwith.parse时报UnicodeDecodeError错
在使用builtwith识别网站所用技术时,如果具体到某个网页,如下图cmdpip install --upgrade builtwithimport builtwithbuiltwith.parse('http://data.eastmoney.com/zjlx/300409.html')就会报如下错误:Traceback (most recent call last): File "&...
2018-05-15 13:21:30 507
原创 如何将excel中的某个sheet保存成csv文件
直接上代码:import xlrd #import csv #import xlwtimport pandas as pd def csv_from_excel(excel_file): workbook = xlrd.open_workbook(excel_file) all_worksheets = workbook.sheet_names() ...
2018-05-14 13:17:06 3952
原创 当文件太大时读取出错怎么办?
在机器学习过程中,如果要处理的文件上G,单纯使用pandas.read_csv(r'D:\format\total_csv_till20180405.csv')容易出错,读不进来,在这种情况下,可以使用以下代码来一块块读进来,并拼接到一起。import pandas as pdreader = pd.read_csv(r'D:\total_csv_till20180405.csv', itera...
2018-05-14 13:07:33 704 1
原创 xml文件中有中文时,使用python报错的解决方案
在使用既有的python的三种方法(SAX,DOM,以及ElementTree)解析XML时,若xml文件里有中文,如果不做特殊处理,通常会报错。以下代码是解决这个问题的一种方法:def getURLfromXML(filePath): import xml.dom.minidom #f = open(r'E:\download\可汗学院\线性代数\2_M82ICR1D9...
2018-05-14 12:55:45 6003
原创 dos/cmd中中文乱码问题的解决方案
通常情况下,如果需要大量的给某个文件夹下的文件批量改名,或者批量创建文件夹时,我们会考虑将rename/mkdir命令写在.bat文件里,然后点击该文件执行。如果修改/创建的名字为英文还好,如果是中文的话,通常会出现乱码现象。这种情况下如何操作呢?通常,在使用win+R,输入cmd进入dos系统时, 我们只要将cmd改成 cmd /u,从而使进入的dos系统支持Unicode,进入系统后,使用之前...
2018-05-14 12:27:54 6682
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人