Python中BeautifulSoup库的用法

BeautifulSoup简介 Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下: Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简...

2018-07-23 18:28:45

阅读数 37978

评论数 0

Python操作MongoDB -- pymongo的基本用法

                                   MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结...

2018-07-20 18:25:01

阅读数 196

评论数 0

Python实时抓取最新的代理IP

有时候同一个IP去爬取同一网站上的内容,久了之后就会被该网站服务器屏蔽。解决方法就是更换IP。这个时候,在对方网站上,显示的不是我们真实地IP地址,而是代理服务器的IP地址。西刺代理http://www.xicidaili.com/nn/ 提供了很多可用的国内IP,云代理http://www.ip...

2018-07-18 18:34:04

阅读数 349

评论数 0

Python爬虫--爬取知乎

1. 爬一下知乎 import requests url = 'http://www.zhihu.com/' res = requests.get(url).text print (res) 结果: 直接访问发现返回 400 错误 E:\360Downloads\Python36\pyth...

2018-07-18 17:23:25

阅读数 1675

评论数 0

python网络爬虫--爬取淘宝联盟

互联网是由一个个站点和网络设备组成的大网,我们通过浏览器访问站点,站点把HTML、JS、CSS代码返回给浏览器,这些代码经过浏览器解析、渲染,将丰富多彩的网页呈现我们眼前。 网络爬虫,也叫网络蜘蛛(Web Spider),如果把互联网比喻成一个蜘蛛网,Spider就是一只在网上爬来爬去的蜘蛛。网...

2018-07-17 23:29:52

阅读数 5394

评论数 3

提示
确定要删除当前文章?
取消 删除