网络爬虫
代码拖拉鸡
无简述
展开
-
Python爬虫实现猫眼电影搜索
import requestsimport timefrom bs4 import BeautifulSoupimport removie=[]def search(url): try: headers={'user-agent':'Mozilla/5.0'} r=requests.get(url,headers=headers) ...原创 2019-05-26 13:03:17 · 950 阅读 · 0 评论 -
爬取我的微博并生成词云图
import requestsfrom urllib.parse import urlencodefrom pyquery import PyQuery as pq#from pymongo import MongoClientimport jiebaimport wordcloudbase_url = 'https://m.weibo.cn/api/container/get...原创 2019-04-19 10:22:35 · 1280 阅读 · 0 评论 -
爬取淘宝美食信息并进行可视化展示
首先爬取淘宝美食信息采用的爬取方法是selenium库和pyquery库,并将爬取到的美食信息存放到csv文件,具体代码如下:import refrom selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.ui import Web...原创 2019-04-27 18:59:15 · 923 阅读 · 0 评论 -
Python爬虫爬取淘宝商品信息
selenium库可以驱动浏览器自动进行页面的访问(代码参考《Python3网络爬虫开发实战》崔庆才著)1.驱动浏览器访问淘宝页面browser=webdriver.Chrome()wait=WebDriverWait(browser,10)def search(): try: url="https://www.taobao.com" brow...原创 2019-04-15 09:53:58 · 8385 阅读 · 3 评论 -
爬取丁香园医生评论(登录版)
丁香园医生网站只有登录后才可以看到完整的评论,所以需要进行模拟登录;有两种方法,一种是用selenium库模拟登录,但是丁香园医生的登录比较复杂,设计滑块的移动,所以这个方法不合适;另一种方法是自己登录后,获取登陆后的cookie信息,就可以实现登陆后的信息爬取;代码实现:import requestsfrom bs4 import BeautifulSoupurl="h...原创 2019-04-13 22:10:55 · 1040 阅读 · 1 评论 -
BeautifulSoup库解析知乎页面的不同方法
提取知乎发现页面的内容打开知乎的发现页面审查元素观察发现,标题隐藏在h2标签的a标签下,一次采用不同的方法对标题内容进行提取1.按照标签名进行提取,前提是这个标签中只有一个属性for a in soup.find_all('h2'): print(a.string)2.按照属性进行提取for a in soup.find_all(attrs=...原创 2019-04-03 20:31:57 · 358 阅读 · 0 评论 -
爬取豆瓣电影TOP250
爬取豆瓣电影TOP250我们要爬取的网址:https://movie.douban.com/top250我们要爬取的内容是250部电影的基本信息:排名、电影名、导演、年份、评分;爬取后将这些电影的信息保存在一个csv文件中。将页面滑到底部,可以看到一共10页,所以我们需要爬取一个页面,然后重复10次,每次爬取的方法相同,不同的是网址的某个参数。1.使用reques...原创 2019-04-16 11:17:59 · 2582 阅读 · 1 评论 -
Python爬虫的一些官方文档(自用)
BeautifulSoup:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html#stringselenium:https://selenium-python-zh.readthedocs.io/en/latest/navigating.htmlpyquery:https://pythonhost...原创 2019-04-15 16:30:58 · 1034 阅读 · 0 评论 -
selenium库学习笔记
基本使用(百度实例)import seleniumfrom selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.keys import Keysfrom selenium.webdriver.support import expected_...原创 2019-04-10 10:41:52 · 233 阅读 · 1 评论 -
爬取知乎榜单并生成词云图
1.网页信息爬取首先进入知乎热门榜单页面:https://www.zhihu.com/hot,使用requests库对页面进行爬取,其中需要注意的是:请求头headers的user-agent应设置为Mozilla/5.0,将程序伪装成浏览器,否则服务器会判定你的程序是python爬虫,进而影响爬取;url="https://www.zhihu.com/hot"headers={...原创 2019-04-04 20:45:46 · 1758 阅读 · 0 评论 -
Python爬虫实现豆瓣图书搜索
import requestsimport timefrom bs4 import BeautifulSoupimport rebook=[]def search(url): try: #url='https://book.douban.com/tag/%E6%97%A5%E6%9C%AC%E6%96%87%E5%AD%A6' r=reques...原创 2019-05-26 17:56:46 · 1636 阅读 · 0 评论