python import request 不报错_爬虫学习路径整理及安装环境遇到的坑

最新推荐文章于 2024-07-16 13:17:37 发布

weixin_39926639

最新推荐文章于 2024-07-16 13:17:37 发布

阅读量219

点赞数

文章标签： python import request 不报错

本文链接：https://blog.csdn.net/weixin_39926639/article/details/111444062

版权

学习路径是我自己提炼和精选的，只适合我个人，因为虽然有技术基础但是我刚入门爬虫视野很窄不专业，为避免误导你们，你们最好参考知乎上大牛已经回答的好答案。我发这篇文章，目的是给自己看的。ps，专栏下每篇文章都是我的原创，转载请标注原处.

学习资源请单：

1)官方Python 最新英文版 ,点左边链接

Python 3.5中文版 ,点左边链接

2)语法入门书：

《Python编程从入门到实践》，这门讲的很好，浅显易懂，还包括可视化+Django+heroku的内容。大家不要看其他大牛推荐的什么简明教程什么笨方法学python，这类的书知识不成体系，还是看专业人写的书吧，血的教训，浪费好多时间。推荐书时，能不能自己读过后再推荐，推荐错了害不少人呐亲。

入门的还有《python语言及其应用》，这本语法很全面，想省时间的看前本吧。或者《python快速上手-让繁琐工作自动化》也很不错，比前面两本书的多很多案例，而且案例可以让自己的效率有提高。

3)练手项目：

A github上的开源Demo:

如Awesome Python 资源整理集合，内容包括：Web框架、网络爬虫、网络内容提取、模板引擎、数据库、数据可视化、图片处理、文本处理、自然语言处理、机器学习、日志、代码分析等

B 视频相关的开源Demo:慕客网上有，关于爬虫框架原理解释的很到位。

C 社区上的开源Demo；http://deeplearning.net/demos。

D: 书中的Demo：书见中高级篇。

4) 社区：google+的数据和机器人小组，Matrix 67,http://deeplearning.net，集搜客GooSeeker，Stackoverflow，Segmentfault，Codecademy，九章算法,leetcode刷面试题,ruby-china.，CSDN，Quera,stack exchange中tag为机器学习的部分，生物学社区AGCTU(关于统计和图表部分)。

5)考虑输出：比如翻译外文的译言

6)中高级篇：检索，采集，分析，挖掘和机器学习相关书籍

数据采集：

关键词：有lxml,beautiful soup,正则表达式，反爬虫(user-agent，time.sleep，cookie，代理ip，selenium操纵浏览器，验证码识别等都需要了解啊)，反编译，利用抓包技术提取，利用嵌入式浏览器，利用IDA软件逆向分析技术，移动APP漏洞及安全相关等。

动态页面提取方案有：

面截图来自这篇文章《基于IDA逆向分析的AppStore应用爬取》，这篇文章我要好好看。

反编译爬虫的例子：见这篇文章《用xposed框架抓取微信朋友圈数据》

书：

有《用python写网络爬虫》(详细，但是python2版本)

《自己动手写网络爬虫》罗刚(里面的思想可以借鉴，但是是用java实现的)

《Python网络数据采集》(初学者可以了解爬虫需要用到哪些知识，挺不错的)

《利用PYTHON进行数据分析》：看书名就知道写什么了。

《图解HTTP》或者《HTTP权威指南》：了解http协议的，如果有基础，就不要看了，前书通俗易懂适合初学者，后者全面相对不够通俗适合有计算机基础的看。

《精通正则表达式》(正则表达式)，scrapy源码分析，《Python源码剖析》。

《Lucene 3.0 原理与代码分析》，LuceneInAction(第2版)，Lucene+nutch搜索引擎开发，开发自己的搜索引擎——Lucene+Heritrix(第2版)，其他的见这篇文章“Lucene和Solr 学习路径”

搜索引擎Demo:悟空搜索

《搜索引擎中网络爬虫的研究与实现》段兵营

《深入研究web主题爬虫的关键性原理》王芳

《软件逆向工程技术研究及应用》

《基于IDA-PRO》软件逆向分析方法秦清文

《支持ajax技术的主题网络爬虫系统研究与实现》

数据分析：

关键词有：自然语言处理(如中文分词和词性标注)，命名实体识别，分词工具

《机器学习:实用案例解析》 /《贝叶斯思维:统计建模的Python学习法》/《集体智慧编程》/《推荐系统实践》/《机器学习实战》/《数据挖掘导论(完整版)》/ 《终极算法》 /《推荐系统》/ 《Python机器学习:预测分析核心算法》 /《统计自然语言处理(第2版)》

，《机器学习:实用案例解析》，《社交网站的数据挖掘与分析》，《Python数据科学指南》，《Python数据分析实战》，《Python数据分析与挖掘实战》有案例，

数据库大家可以看高性能MySQL (豆瓣),《Head first Python》，《数据可视化实战——使用D3设计交互式图表》，《集体智慧编程》，《机器学习系统设计》，《机器学习实战》，《推荐系统》，《统计学习方法》，《看穿一切数字的统计学》，《数据可视化之美》，《图表说话》，参加Kaggle竞赛等

数据存储和可视化：

信息链接：URI，sql

存储：json，如PostgreSql，excel，图数据库Neo4j/OientDB，RDF数据库Startdog。

可视化：tableau，D3，matlib，pysql。

开发环境安装

开发环境安装流程见： python爬虫的最佳实践(二)--环境搭建

安装开发环境步骤(win环境+64位+python最新3.6版本+mongodb)：

1、安装python 3.6版本

查看是否安装成功：启动python解释器(快捷键win+r)，在cmd里输入python，没报错就表示安装成功了。命令行窗口退出python解释器，需要输入uexit()

2、用Python自带的IDE练手熟悉Python基础语法：

记住常用快捷键：1)ctrl+n 自动创建一个编辑文件，编辑好后，再F5执行就可以了；或者在python IDE(GUI)的窗口中的File->New Window创建。2)增加多行缩进： Ctrl + ] (右中括号)

3)减少多行缩进：Ctrl + [ (左中括号) ； 4)添加多行注释：Alt + 3 ; 5)取消多行注释：Alt + 4

6)更多可以查看 IDLE菜单栏的Options -> Configure IDLE… -> Keys选项卡

如果想自定义快捷键，则选中要自定义的命令，然后点击Get New Keys for Selection

3、安装pip自动安装包，省时间

安装pip 流程

4、安装request请求包

官方地址

5、安装Scrapy爬虫框架

安装时发现building twisted.test.raizer extention报错，网上找了下，发现有网友已经提供这个问题的解决方案了，网址：twisted安装注意事项和下载twisted，安装步骤，以及这个。

验证Scrapy是否成功，python shell下输入 import scrapy 不报错就说明安装成功。

如果python安装python库的时候经常报错，可以看这篇文章有解决方案

Scrapy入门教程Demo：见这里

6、安装pyopenssl加密包

7、安装bootstrap前端开发的开源工具包

8、安装builtwith包，用于查看网站用了哪些技术。

python安装builtwith会遇到问题，不过可以看这位网友的解决方案

9、安装pycharm的开发环境:步骤见这个。

pycharm激活：用这个lanyus.

注意：配置调试scrapy爬虫项目，需要点击工具栏run--》edit configuration 。

10、安装虚拟环境virtualenv包

python -m venv 创建虚拟环境，虚拟环境\Scripts\activate (不包含source )来激活这个虚拟环境

django-admin.py startproject webSite因为版本问题有时候会报错，执行django-admin startproject webSite就行。

11、安装Django和数据库：

安装Django的流程一定要看官方的：中文版见这里 ,如果不按照官方的，你会碰到“no module named django”，但是其实已经安装了，是不是百思不得其解~~所以一定按照官方来！！

另外，Django 案例官方也有了~~。

数据库我选择mongodb，网友选择哪个数据库可以参考这个答案。

python版的sqlite用法见：这里

12.部署app到服务器heroku 或者openshift：如何部署Python Web应用：记录一次Heroku部署完整过程 - 香飘叶子 - 51CTO技术博客 , 来自HeroKu的HTTP API 设计指南(中文版) , 关于 Heroku、PHPFog 和 APPFog 三大国外PaaS云的吐槽、用后感以及一些疑问 - V2EX

有进步了再更新~~

weixin_39926639

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python import request 不报错_爬虫学习路径整理及安装环境遇到的坑

学习路径是我自己提炼和精选的，只适合我个人，因为虽然有技术基础但是我刚入门爬虫视野很窄不专业，为避免误导你们，你们最好参考知乎上大牛已经回答的好答案。我发这篇文章，目的是给自己看的。ps，专栏下每篇文章都是我的原创，转载请标注原处.学习资源请单：1)官方Python 最新英文版 ,点左边链接Python 3.5中文版 ,点左边链接2)语法入门书：《Python编程从入门到实践》，这门讲的很好，浅...
复制链接

扫一扫