自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 Python3与Highcharts互动展示数据

Highcharts官网的例子都是用JS写的,这里主要学会怎么用官网的样式展示自己的数据,参考github:https://github.com/kyper-data/python-highcharts/tree/developer

2018-01-09 19:58:31 2640 1

原创 Python3 wordcloud使用+csdn引用NoteBook

1、wordcloud,github地址:https://github.com/amueller/word_cloud,直接用pip安装报错,error: Microsoft Visual C++ 14.0 is required. 解决方案:进入https://www.lfd.uci.edu/~gohlke/pythonlibs/中,搜索wordcloud,找wordcloud‑1.3.2‑cp

2018-01-06 18:50:05 298

原创 python学习之词云wordcloud+jieba

1、wordcloud,github地址:https://github.com/amueller/word_cloud,直接用pip安装报错,error: Microsoft Visual C++ 14.0 is required. 解决方案:进入https://www.lfd.uci.edu/~gohlke/pythonlibs/中,搜索wordcloud,找wordcloud‑1.3.2‑c

2018-01-05 20:16:48 286

原创 Python Notebook添加多版本内核

背景: 在学习Python自然语言处理时,很多github上的代码都是Python2版本,因为之前安装的anconada是3,Python3版本,所以想在notebook上添加Python2内核 方法: 1、去官网下载Python2.7,不要下载2.5,,2.5后面会下载不了notebook内核(ipykernel),坑了我半天,下载好后,设置环境变量,将Python.exe所在目录和Scr

2018-01-03 17:12:20 567

原创 爬虫豆瓣完整版

from bs4 import BeautifulSoup import requests, time, pymongo from multiprocessing import Pool user_agent = 'Mozilla/5.0 (Windows NT 6.2; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0

2017-11-01 18:14:06 516

原创 Python 爬取豆瓣电影Top250(一)

from bs4 import BeautifulSoup import requests import time import pymongo #创建数据库 client = pymongo.MongoClient('localhost', 27017) #激活客户端 douban = client['douban'] url_list = douban['url_list'] item

2017-10-28 17:14:48 537

原创 Python爬虫学习_多进程爬取58同城

思路:有多个频道(类别),每个频道下有多个商品链接,每个商品都有详情页。先将频道链接中的多个商品链接爬下来放入数据库中,再从数据库中取出来每一个商品详情页链接,进行详情页中的信息爬取   首先是channel_extact.py,爬取不同频道的链接 from bs4 import BeautifulSoup import requests start_url = 'http://bj.58

2017-03-09 20:59:08 1341 1

原创 Python 爬虫学习6数据库使用

import pymongo client = pymongo.MongoClient('localhost',27017) #激活客户端,在本地创建数据库 walden = client['walden'] #左侧是Python中的对象,右边括号中是数据库中的名称 sheet_tab = walden['sheet_tab'] #创建了表单名称 # path =

2017-03-08 19:35:42 255

原创 Python爬虫学习5

爬取梅梅图片保存至本地,连续页中有页

2017-03-08 08:30:32 428 1

原创 Python 爬虫学习4

任务:爬取58页面中的正常商品,每个商品详情页中的类目、标题、发帖时间、价格、成色、区域、浏览量信息 注意:多开反爬取、看是个人还是商家(url中的0和1) 详情页中的标题 待改进,'http://bj.58.com/pingbandiannao/{}/pn2,这是第二页的,第一页的爬不了,浏览量还没成功   from bs4 import BeautifulSoup import re

2017-03-06 19:31:23 273

原创 Python 爬虫学习3

任务:异步数据 动态数据:Network-XHR-Response(链接、图片链接),在Request中寻找URL 异步加载网站:新浪微博评论、豆瓣电影 难点:要知道每一次加载的元素个数(这个网站是12个)   from bs4 import BeautifulSoup import requests, time url = 'https://knewone.com/discover?p

2017-03-05 14:22:44 386 1

原创 Python 爬虫学习2爬取租房网站信息

任务:爬取租房网站信息,300个房源信息(详情页中的价格、位置、户主名字、性别等) 注意:超链接的获取、性别获取 from bs4 import BeautifulSoup import requests, time page_link = [] # <- 每个详情页的链接都存在这里,解析详情的时候就遍历这个列表然后访问就好啦~ def get_page_link(page_number):#

2017-03-05 14:02:48 686

原创 Python 爬虫学习1

新手学习Python,了解网页元素,难点:元素定位

2017-03-04 21:27:53 274

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除