丁香园医生网站只有登录后才可以看到完整的评论,所以需要进行模拟登录;
有两种方法,一种是用selenium库模拟登录,但是丁香园医生的登录比较复杂,设计滑块的移动,所以这个方法不合适;
另一种方法是自己登录后,获取登陆后的cookie信息,就可以实现登陆后的信息爬取;

代码实现:
import requests
from bs4 import BeautifulSoup
url="http://www.dxy.cn/bbs/thread/626626#626626"
headers={'user-agent':'Mozilla/5.0','cookie':'DXY_USER_GROUP=50; __utmz=1.1554704763.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); __auc=6adb096f169fba00715ffc36088; Hm_lvt_8a6dad3652ee53a288a11ca184581908=1554704763,1554813458; __utma=1.712999977.1554704763.1554704763.1554813458.2; __utmc=1; _ga=GA1.2.712999977.1554704763; CMSSESSIONID=74D4B89074C33D4929B6B122B7