我是大伟-CSDN博客

原创网易云音乐爬虫

# coding=utf-8 import requests from lxml import etree import re from selenium import webdriverclass Music163: def __init__(self): self.start_url = "http://music.163.com/discover/playlist"

2017-11-23 16:27:05 788

原创 python3中将`&#x`(《新)的字符串转化为utf-8

对于网页中的《新编全&#x6ce8 ，正常情况下python3中能直接转化为utf-8，所以即使网页中显示的是这种escape sequence，获取到之后能够显示正常，但是偶尔也不好使，不好使的情况下可以使用如下方法解决：安装HTMLParser pip install HTMLParser 修改HTMLParser的源码修改imp

2017-10-17 22:51:17 3706

原创百度文库爬虫之ppt爬虫

百度文库爬虫,目前实现其中的ppt的获取

2017-09-10 08:47:13 2735

原创 scrapy中crwalspider源码分析

""" This modules implements the CrawlSpider which is the recommended spider to use for scraping typical web sites that requires crawling pages. See documentation in docs/topics/spiders.rst """ impor

2017-09-08 22:23:38 1189

#coding=utf-8 import time import json import requests import pymongo from pprint import pprint from lxml import etree from pymongo import MongoClient from selenium import webdriver from multiprocessin

2017-03-15 16:55:59 1645

原创 python爬虫实现获取豆瓣图书的top250的信息-beautifulsoup实现

python实现，结果保存在同一目录下的douba.txt中使用beautifulsoup实现 #coding=utf-8 import urllib2 from bs4 import BeautifulSoup #伪造的头，不知到有用否 sendHeaders = { 'User-Agent':'Mozilla/5.3 (Windows NT 7.2; rv:18.0)

2016-08-27 19:11:24 1445

原创拉勾网爬虫-python语言实现

以下实现拉勾网上面的北京python的招聘岗位的相关信息，包括公司名称，工资，公司简单介绍，公司地址初始页面为http://www.lagou.com/zhaopin/Python/?labelWords=label文件存储在同一个目录下的12345.txt中#coding=utf-8 import urllib2 from bs4 import BeautifulSoup #定义一个伪装的头文件

2016-08-26 17:14:34 1410

去看更大的世界,去学更多的数学

原创网易云音乐爬虫

原创 python3中将`&#x`(《新)的字符串转化为utf-8

原创百度文库爬虫之ppt爬虫

原创 scrapy中crwalspider源码分析

原创网易云音乐爬虫

原创 python爬虫实现获取豆瓣图书的top250的信息-beautifulsoup实现

原创拉勾网爬虫-python语言实现

空空如也

空空如也