学习python我所遇到的坑以及解决方法
文章平均质量分 63
腾阳
全网同名,欢迎关注,文章首发公号
展开
-
Mac版Pycharm 汉化指南(附上语言包)
Q:MAC版Pycharm的英文看着头疼?A:你需要一个汉化语言包1. 下载包:汉化包链接:https://pan.baidu.com/s/1hxOoNXyGZ5kY-P4C_89_PA提取码: wusa2. 访达—应用程序—找到pycharm—右键“显示包内容”—如下路径/Applications/PyCharm.app/Contents/lib—将resources_cn.j...原创 2019-07-02 11:13:28 · 15563 阅读 · 6 评论 -
python 3.6 scrapy :Windows环境下的虚拟环境安装和配置
在命令行窗口输入 pip install virtualenv我们都知道,使用easy_install和pip来安装第三方库非常的方便,但是总会因为某些原因导致访问官方的pypi很不稳定,然后导致下载的速度特别慢,甚至是访问不了,这就让人很蛋疼了。为了解决这个问题,在这里推荐使用国内的镜像源,尤其推荐的是python的豆瓣源https://pypi.douban.com/simple...原创 2018-08-01 11:33:16 · 1094 阅读 · 0 评论 -
虚拟环境搭建失败,安装virtualenvwrapper后,'workon' 不是内部或外部命令,也不是可运行的程序 或批处理文件。
解决方法:pip install virtualenvwrapper-winpip install virtualenvwrapper这是python2的使用方法,这里使用的是python3.6版本原创 2018-08-01 10:36:53 · 7174 阅读 · 1 评论 -
如何上传文件或者文件夹到GitHub上
自从使用github以来,一直都是在github网站在线上传文件到仓库中,但是有时因为网络或者电脑的原因上传失败。最重要的原因是我习惯本地编辑,完成以后再一起上传github。看过了几个教程,总结出最适合自己的比较简单的方法。两种方法上传本地文件到github1. github在线上传文件夹在线上传也可以上传完整的文件夹结构,直接拖拽到上传文件页面的框中即可。1.1点击上传文件...转载 2018-07-30 14:44:45 · 16355 阅读 · 3 评论 -
cannot import name 'quote'
from urllib.parse import quote原创 2018-07-20 15:08:50 · 3429 阅读 · 1 评论 -
python3.6使用newspaper快速抓取任何新闻文章正文
之前使用其他方法,诸如xpath,css,正则表达式,beautifulsoup来解析新闻页面的时候,总是会遇到这样那样各种奇奇怪怪的问题,让人很头疼。最近学到一个新的包newspaper,用来抓取新闻正文,真的很好用呢。这个包是需要自己重新安装的,我使用的是pycharm。在settings配置环境,添加包newspaper的时候总是添加不进去。那就pip吧!于是打开命令行窗口,...原创 2018-07-25 22:37:50 · 7107 阅读 · 2 评论 -
Python3.6+requests 爬取网站遇到中文乱码怎么办?ä½è ï¼å¾®è½¯äºæ´²ç 究é¢
# -*- coding:utf-8 -*-import requestsimport jsonimport timeimport randomfrom lxml import etreeurl = 'https://www.msra.cn/zh-cn/news/features/bma-20170207'# 伪装成Mozilla浏览器,解决反爬虫user_agent = '...原创 2018-07-25 15:39:45 · 7522 阅读 · 0 评论 -
Fatal error in launcher: Unable to create process using '"c:\python\python36-32\python.exe"
遇到的问题:Fatal error in launcher: Unable to create process using '"c:\python\python36-32\python.exe" "C:\Python36\Python36-32\Scripts\pip.exe" '具体原因:pip的环境变量更改了位置或者路径出错解决方案:在命令行输入任意一个1.python -m p...原创 2018-07-24 23:44:05 · 15044 阅读 · 5 评论 -
使用python做爬虫时保存图片的方法大全以及需要注意的地方
1.使用urllib.urlretrieve()用法:urlretrieve(url, filename=None, reporthook=None, data=None)参数 finename 指定了保存本地路径(如果参数未指定,urllib会生成一个临时文件保存数据。)参数 reporthook 是一个回调函数,当连接上服务器、以及相应的数据块传输完毕时会触发该回调,我们可以利用这个回调函数来...原创 2018-06-07 10:50:33 · 13634 阅读 · 0 评论 -
EOL while scanning string literal
file = r'C:\Users\ME\Desktop\Python project\pachong\scrapy\secondDemo\photo\' + this_url[-15:-4] + '.jpg'这是爬取图片,保存在文件时的一个代码片段,一直出现错误:EOL while scanning string literal翻译了下,原来是因为扫描字符串文字是报错,在写文件时一定要小心'\'...原创 2018-06-07 10:09:35 · 116947 阅读 · 3 评论 -
module 'urllib' has no attribute 'request'
import urllib# 网络上图片的地址img_src = 'http://img.my.csdn.net/uploads/201212/25/1356422284_1112.jpg'# 将远程数据下载到本地,第二个参数就是要保存到本地的文件名urllib.request.urlretrieve(img_src,'C:/1.jpg')解决方案:以后遇到同种问题直接把属性impor...原创 2018-06-06 21:50:15 · 6141 阅读 · 3 评论 -
使用scrapy做爬虫遇到的一些坑:no active project Unknown command: crawl Use "scrapy" to see available commands
很明显第二第三图片相差了一个scrapy.cfg文件,原因在于刚才不小心删除。爬虫在爬取时首先会对这个文件进行处理。添加回来后在运行爬虫就OK了原创 2018-06-13 16:35:57 · 16792 阅读 · 1 评论 -
常用正则表达式的特殊字符的简单示例和应用
import re"""^表示以什么开头,^s表示以s开头,后面可以是任意字符串. 表示任何字符,不管事中英文还是特殊字符* 表示前面的字符重复多次$ 表示的是以什么符号结束?非贪婪模式,就是从左边开始匹配()表示只取某个指定的字符串+ 至少出现一次,例如s.+g就是从第一个g开始,中间不管有什么,只要下一个是s即可{} 表示前面的符号出现几次,如{2}则是出现两次,{2,}...原创 2018-08-02 08:40:16 · 714 阅读 · 0 评论 -
'scrapy' 不是内部或外部命令和Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build To
在使用scrapy startproject ##来创建新的项目时,发现'scrapy' 不是内部或外部命令然后就pip install scrapy,结果报错了,error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools"还记得之前的一个非常重要的网址 https:...原创 2018-08-02 10:07:24 · 685 阅读 · 0 评论 -
***文件is not a supported wheel on this platform.
例如:多数情况下是版本不对,于是换成32位的原创 2018-08-02 10:09:16 · 250 阅读 · 0 评论 -
Python使用pip安装报错:is not a supported wheel on this platform的解决方法
本文讲述了Python使用pip安装报错:is not a supported wheel on this platform的解决方法。分享给大家供大家参考,具体如下:可能的原因1:安装的不是对应python版本的库,下载的库名中cp27代表python2.7,其它同理。可能的原因2:这个是我遇到的情况(下载的是对应版本的库,然后仍然提示不支持当前平台)在https://www.lfd...转载 2019-03-07 15:03:31 · 24115 阅读 · 1 评论 -
Python 求汉明码的最小距离
#求汉明最小距离def hm_code_length(hm_code): ''' array()列表--数组 mat() 列表--矩阵 tolist() 矩阵--列表 ''' # 列表a用来装汉明码距离 a = [] for i in range(len(hm_code)): matV = np.mat(hm_co...原创 2019-03-10 08:25:11 · 2186 阅读 · 1 评论 -
ImportError: No module named openpyxl
方法1:在命令行终端上输入pip install openpyxl方案二:将鼠标移动到需要安装的第三方库,左键覆盖,会出现一个小灯泡,点击install 方案三:点击最左上角的PyCharm→Preferences→Project→Project Interpreter。点击这个+,这里以openpyxl为例,点击install。 等待安装完成以后就可以使用了...原创 2018-12-06 15:12:46 · 7448 阅读 · 1 评论 -
Mac pycharm 安装第三方库 install requests no module name request
问题描述:习惯使用了Windows的pycharm,当换了Mac以后,在安装第三方库出现了一下问题,在这一request为例:no module name request解决方案:方案一:在终端上pip install request方案二:将鼠标移动到需要安装的第三方库,左键覆盖,会出现一个小灯泡,点击install 方案三:点击最左上角的PyCharm→Preferen...原创 2018-12-05 11:20:55 · 7394 阅读 · 0 评论 -
pymysql.err.OperationalError: (1045, u"Access denied for user 'root'@'localhost' (using password: N
import pymysqldb = pymysql.connect(host = 'localhost',user = 'root',password = 'asdfgh',port = 3306)cursor = db.cursor()cursor.execute('SELECT VERSION()')data = cursor.fetchone()print('database ...原创 2018-09-16 20:46:29 · 24153 阅读 · 8 评论 -
python CSV文本存储,TXT文本存储,json文本存储的简单示例
'''用open方法打开一个文件,获取一个文件操作对象,赋值为file,接着使用write方法来将爬取的内容写入文件,最后调用close方法关闭文件'''file = open('**.txt','a',encoding='utf-8')file.write('')file.close()'''with控制块结束时会自动关闭文件'''with open('**.txt','a'...原创 2018-09-16 20:01:19 · 742 阅读 · 0 评论 -
KeyError: 'Spider not found:name一样,为何还是找不到spider 多种解决方案,总有一个适合你!
第一种:运行的main文件中的爬虫名字与爬虫文件中的name不相同解决方案:令两者名字相同即可第二种:爬虫文件夹中缺少__init__文件,一开始是直接在spider文件夹下创建的爬虫文件,然后把多个爬虫文件放进stt的文件夹中,运行main文件就不行了,原因就是在粘贴复制时漏了__init__文件。解决方案:注意创建爬虫文件时的__init__文件不要丢失了。3第三种...原创 2018-08-17 08:23:19 · 26722 阅读 · 0 评论 -
hello world代码明明正确,运行也没有报错,pycharm为什么没有输出正确的结果
原因:选择的python.exe路径有问题。解决方案:点击左上角的file——点击settings——点击project interpreter——点击右上角的齿轮——点击add——在错误的一栏处点击...——选择正确的python.exe(如果左下角出现了文件夹非空的提示,那么就首先建立一个空的文件夹,然后在第一栏处选择文件夹的路径)——最后一直按确认即可 ...原创 2018-08-18 11:43:49 · 31408 阅读 · 4 评论 -
python 如何爬取审查元素中Elements里有的元素,而源代码里没有的标签?
网址:http://gpj.mofcom.gov.cn/article/ch/201808/20180802773240.shtml在这里我们可以看到,这个网站的新闻页面的作者,发布时间那一栏的标签在审查元素的Elements里有的元素,而源代码里却没有,如果单纯的使用xpath或者css无法匹配解析出想要的信息。并且我们可以看到这个元素是使用JavaScript进行渲染的,在源代...原创 2018-08-15 21:20:24 · 36782 阅读 · 10 评论 -
Missing scheme in request url: h
在使用python3.6中的scrapy爬取时遇到这个问题,Missing scheme in request url: h意思就是starts_url必须是列表的形式解决方法:将原来的start_url加上中括号,编程列表即可 ...原创 2018-08-08 09:45:55 · 3704 阅读 · 0 评论 -
No module named 'win32api'
相信很多朋友在使用scrapy时都遇到过这样 的问题:ModuleNotFoundError: No module named 'win32api'意思就是说我们的python环境中,没有自带访问windows系统API的库。既然如此,那就使用pip安装即可。在这里因为这个包比较大,所以使用豆瓣源会快很多,一定要牢记豆瓣源https://pypi.douban.com/simpl...原创 2018-08-07 16:02:46 · 9283 阅读 · 3 评论 -
使用scrapy做爬虫遇到的一些坑:网站常用的反爬虫策略,如何机智的躲过反爬虫Crawled (403)
在这幅图中我们可以很清晰地看到爬虫与反爬虫是如何进行斗智斗勇的。在学习使用爬虫时,我们制作出来的爬虫往往是在“裸奔”,非常的简单。简单低级的爬虫有一个很大的优点:速度快,伪装度低。如果你爬取的网站没有反爬机制,爬虫们可以非常简单粗暴地快速抓取大量数据,但是这样往往就导致一个问题,因为请求过多,很容易造成服务器过载,不能正常工作。于是许多网站为了保护自己的服务器,往往会采用反爬虫技术来“狙击”爬虫,...原创 2018-06-13 15:21:18 · 21992 阅读 · 6 评论 -
pycharm的一些快捷操作
Ctrl+z:撤回Ctrl+/: 注释或者解开注释Ctrl + Space: 基本的代码完成(类、方法、属性)Ctrl + Alt + Space: 快速导入任意类Ctrl + Shift + Enter: 语句完成Ctrl + P: 参数信息(在方法中调用参数)Ctrl + Q: 快速查看文档Shift + F1: 外部文档Ctrl + 鼠标: 简介Ctrl + F1: 显示错误描述或警告信息...转载 2018-05-07 11:28:03 · 376 阅读 · 0 评论 -
如何anaconda下自由转换不同版本的python环境的spyder
由于学习的需要,一开始电脑就装了python3.6版本,后来参加了一个python的大数据与人工智能发现,尽管python3版本的python是未来,但目前十几年内大多数情况还是python2版本用的比较多。而且看过很多书与视频,大多都是以2为主,于是就下载了2.在使用anaconda的时候,一直打开都是python3.6版本,自己摸索了好一段时间都没有不知道如何更改。有过以上问题的可以参考下接下...原创 2018-04-28 09:10:07 · 30198 阅读 · 10 评论 -
使用scrapy做爬虫遇到的一些坑:No module named items以及一些解决方案
最近在学习scrapy,因为官方文档看着比较累,所以看着崔庆才老师写的博客来做:https://cuiqingcai.com/3472.html# -*- coding: utf-8 -*-import reimport scrapy # 导入scrapy包from bs4 import BeautifulSoupfrom scrapy.http import Request ##一个...原创 2018-05-05 21:04:41 · 26788 阅读 · 4 评论 -
使用scrapy做爬虫遇到的一些坑:爬虫使用scrapy爬取网页返回403错误大全以及解决方案
今天学习scrapy爬取网络时遇到的一些坑的可能正常情况:DEBUG: Crawled (200) <GET http://www.techbrood.com/> (referer: None)错误情况:DEBUG: Crawled (403) <GET http://www.techbrood.com/> (referer: None)一,网址的错误一开始...原创 2018-05-04 21:57:45 · 32346 阅读 · 1 评论 -
使用scrapy做爬虫遇到的一些坑:保存信息的最简单的方法
# json格式,默认为Unicode编码scrapy crawl ++++ -o ****.json# json lines格式,默认为Unicode编码scrapy crawl ++++ -o ****.jsonl# csv 逗号表达式,可用Excel打开scrapy crawl ++++ -o ****.csv# xml格式scrapy crawl ++++ -o ***...原创 2018-05-04 09:03:24 · 1500 阅读 · 0 评论 -
使用scrapy做爬虫遇到的一些坑:导入Module的时候总显示no module named ×××.items?
估计很多人和我遇到过这样的坑,就是scrapy做爬虫时,导入Module的时候总显示no module named ×××.items?可是检查很多遍都没发现什么大问题啊?我明明是按照教程来打的案例!!!原来这是因为编译器的问题,pycharm不会将当前文件目录自动加入自己的sourse_path。那么具体的解决方法如下:1,找到你的scrapy项目上右键2.然后点击make_directory ...原创 2018-05-03 15:51:39 · 13017 阅读 · 3 评论 -
使用scrapy做爬虫遇到的一些坑:No module named win32api报错后怎么解决?
最近在学习scrapy,在mySpider目录下执行:scrapy crawl itcast时报错 No module named win32api。既然缺少了这种模块,那就安装模块就好了。直接在命令行窗口输入pip install pypiwin32,回车然后再输入原来的命令,回车就能成功...原创 2018-05-03 15:28:39 · 1451 阅读 · 0 评论 -
爬虫中常用的IP代理/USER_AGENTS
USER_AGENTS = [ "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)", "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Acoo Browser;...原创 2018-05-03 09:32:53 · 1119 阅读 · 1 评论 -
python2.7如何实现每天定时抓取网页?
# -*- coding: utf-8 -*-"""Created on Wed May 02 16:43:10 2018@author: TY"""# coding:utf8#引入时间模块import datetimeimport time#定义一个爬虫函数,用来实现爬虫功能def pachong(): # 把爬虫程序放在这个类里 print '爬虫已经...原创 2018-05-02 17:14:15 · 1324 阅读 · 4 评论 -
使用scrapy做爬虫遇到的一些坑:使用xpath和CSS遇到的一些 invalid syntax
1.引号的歧义:最外面应该使用单引号 错误:正确:(占坑待填补)原创 2018-05-08 21:50:14 · 4183 阅读 · 1 评论 -
使用get函数无法获取相对应的标签
# -*- coding: utf-8 -*-import requestsimport pandas as pdfrom bs4 import BeautifulSoupimport reimport json#import cx_Oraclefrom sqlalchemy import create_engineimport sysurl = 'http://www.sac...原创 2018-05-01 23:03:45 · 505 阅读 · 2 评论 -
python 遍历列表,并且将元素拼接的技巧
创建列表:?12>>> music = ["Abba","Rolling Stones","Black Sabbath","Metallica"]>>> print music输出:?1['Abba', 'Rolling Stones', 'Black Sabbath', 'Metallica']通过join函数通过空格连接列表中的元素:?1&a转载 2018-05-14 08:58:48 · 16939 阅读 · 0 评论 -
使用scrapy做爬虫遇到的一些坑:调试成功但是没有办法输出想要的结果(request的回调函数不执行)(url去重)dont_filter=True
可以看到,当parse的第一个断点设置在第54行时能运行成功。接下来将断点设置在parse_news函数中。照理来说应该会正常输出item_1的内容,但是为什么没有办法正确输出呢?而且也没有报错啊!调试的时候,发现回调函数 parse_detail 没有被调用,这可能就是被过滤掉了,查看 scrapy 的输出日志 offsite/filtered 会显示过滤的数目。因为被去重过滤了,所以才调试不了...原创 2018-05-21 23:20:24 · 26652 阅读 · 0 评论