Python爬虫
luguanyou
这个作者很懒,什么都没留下…
展开
-
一个简单的网页python爬虫 BeautifulSoup
1、使用BeautifulSoup解析网页Soup =BeautifulSoup(html, "lxml")爬取整个HTML网页定位有两种方式:(1)CSS selector:如 div.centering_wrapper > img 或 div.item.name > a(2)XPath:比如要爬取图片和标题,右击--> 检查--> 选中标题右击 -->检查 ...原创 2018-06-21 10:48:56 · 257 阅读 · 0 评论 -
python爬虫 网页表格
from bs4 import BeautifulSoup import requests import csv import bs4 #检查url地址 def check_link(url): try: r = requests.get(url) r.raise_for_status() r.enc...转载 2018-06-22 00:44:33 · 7098 阅读 · 0 评论 -
ServerSelectionTimeoutError: localhost:27017: [WinError 10061] 由于目标计算机积极拒绝,无法连接。
作为mongodb 新手,可能会遇到上面的问题。其实也很好解决,原因是mongodb 服务器没有开启,记住只要要求连接数据库的,必须提前开启mongodb服务器。1、cmd进入命令操作2、cd 切换到mongodb/bin目录下3、执行命令开启命令 mongod --dbpath "d:\mongodb\data4、这个窗口不能关,然后就可以进行MongoDB数据库的相关操作了...原创 2018-06-25 23:55:39 · 34099 阅读 · 0 评论 -
Python爬虫 爬取数据存入MongoDB
from bs4 import BeautifulSoupimport requestsimport timeimport pymongoclient = pymongo.MongoClient('Localhost', 27017)ceshi = client['ceshi']url_list = ceshi['url_list3']item_info = ceshi['item...原创 2018-06-26 01:10:30 · 3763 阅读 · 0 评论 -
爬取网页中所有的链接
1、导入库from bs4 import BeautifulSoupimport requests2、requests请求url = 'https://bj.58.com/sale.shtml' wb_data = requests.get(url)3、抓取所有HTML元素 soup = BeautifulSoup(wb_data.text,'lxml') #y...原创 2018-10-11 10:45:54 · 4850 阅读 · 0 评论 -
爬取赶集网整个网页所有商品链接
如图是我们想爬取的标题链接1、导入必要的库from bs4 import BeautifulSoupimport requestsimport time2、爬取整个网页HTML#list_view = '{}{}{}/'.format(channel, str(who_sells), str(pages))list_view = '{}{}{}/'.format('htt...原创 2018-10-11 11:58:03 · 431 阅读 · 0 评论 -
如何爬取商品详情页中的信息
如下图,我们要爬取标题和价钱和区域等 1、导入库from bs4 import BeautifulSoupimport requestsimport time2、抓取整个HTML网页(增加判断语句,防止解析404页面)wb_data = requests.get('https://bj.58.com/jiadian/29063883256526x.shtml')if ...原创 2018-10-11 15:22:11 · 4324 阅读 · 0 评论