- 博客(4)
- 收藏
- 关注
原创 网络爬虫基础
什么是网络爬虫:爬虫是一个模拟人类请求网站行为的程序。可以自动请求网页、并把数据抓取下 来,然后使用一定的规则提取有价值的数据。为什么用Python写爬虫1.PHP:PHP是世界是最好的语言,但他天生不是做这个的,而且对多线程、异步支持不是很好,并发处理能力弱。爬虫是工具性程序,对速度和效率要求比较高。2.Java:生态圈很完善,是Python爬虫最大的竞争对手。但是Java语言本身很笨...
2019-12-07 14:57:57 235
转载 快速理解flask框架
Flask是一个使用 Python 编写的轻量级 Web 应用框架。其 WSGI 工具箱采用 Werkzeug ,模板引擎则使用 Jinja2 。Flask使用 BSD 授权。Flask也被称为 “microframework” ,因为它使用简单的核心,用 extension 增加其他功能。Flask没有默认使用的数据库、窗体验证工具。Flask是一个轻量级的可定制框架,使用Python语言编写...
2019-11-27 11:25:39 1294
转载 快速理解Django框架
Django是一个开放源代码的Web应用框架,由Python写成。它最初是被开发来用于管理劳伦斯出版集团旗下的一些以新闻内容为主的网站的,即是CMS(内容管理系统)软件。并于2005年7月在BSD许可证下发布。这套框架是以比利时的吉普赛爵士吉他手Django Reinhardt来命名的。Django想要理解,首先要明白的就是Django的大致组成,它大致由四部分组成,也就是提到的MTV模型:M...
2019-11-26 19:13:48 196 1
转载 非结构化数据与结构化数据提取
页面解析和数据提取一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值。内容一般分为两部分,非结构化的数据 和 结构化的数据。非结构化数据:先有数据,再有结构,结构化数据:先有结构、再有数据不同类型的数据,我们需要采用不同的方式来处理。非结构化的数据处理文本、电话号码、邮箱地址:正则表达式HTML 文件:正则表达式、XPath、CSS选择器结构化的数据处理J...
2019-11-26 18:55:30 1994
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人